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تمهيد 


تمثل الأفكار والأساليب الإحصائية أساس كل جوانب الحياة الحديثة تقريبًا. في بعض الأحيان 
يكون دور الإحصاء واضحاء ولك في كثير من الأحيان تكون الأفكار والأدوات الإحصائية 
مختفية في الخلفية. وفي كلتا الحالتين» بسبب الوجود الشامل للأفكار الإحصائية» من الواضح أنه 
من المُفيد للغاية أن نمتلك بعض agall‏ لها. والهدف من هذا الكتاب هو تقديم مثل هذا الفهم. 


بُعاني الإحصاء من سوء فهْم جوهري مؤسف Shed‏ الناس عن طبيعته الأساسية. وهذا الاعتقاد 
الوا ا 30558 كول ةو انهه ell eos‏ محال حاف وغل تكو من 
الخيال أو الإبداع أو الإثارة. of SG‏ هذه صورة خاطئة تمامًا لمجال ale‏ الإحصاء الحديث؛ إذ إنها 
مبنية على تصور يرجع تاريخه إلى AS)‏ من نصف قرن. galai last‏ هذه الصورة تمامًا 
حقيقة أن أجهزة الكمبيوتر قد غيرت وجه المجال تمامًا؛ إذ Miss‏ من مجال معتمد على الحساب 
إلى نظام قائم على استخدام أدوات برمجية متطورة Aal‏ البيانات بحثا عن الفهم والتنوير. هذا هو 
ما يتمحور حوله مجال علم الإحصاء الحديث؛ استخدام الأدوات لمساعدة الإدراك وکو US‏ مخ 
وسائل تسليط «el Baer ce pall‏ وأدوات الرصد caa ill g‏ و المساعدة في عملية صنع 
القرار. كل هذا س وأكثر س يمثل Gil ss‏ مجال ale‏ الإحصاء الحديث. 


يهدف هذا الكتاب إلى منح القارئ قذرًا من الفهُم لمجال ale‏ الإحصاء الحديث. من الواضح أنه " 
كتاب قصير مثل هذا الكتاب لا أستطيع الخوض في التفاصيل؛ لذا بدلا من التفصيلء s] Cà‏ 
Gales yh‏ على الفجل بائره نے محااة Ns. AS dial Seals Ge jue‏ 
والأساليب الإحصائية. وآمُل أنْ يمتح الكتابٌ القارئ فهمًا لكيفية عمل مجال ale‏ الإحصاء الحديث؛ 
ومدى أهميته» وأن يُعرّفه ‏ بالطبع س السبب في أهميته. 


يعرض الفصل الأول بعض التعريفات الأساسية» مع توضيحات تهدف للتعريف ببعض من قوة 
الإحصاء وأهميته وإثارته. ويقدم الفصل الثاني بعضًا من أبسط الأفكار الإحصائية؛ الأفكار التي 
Las‏ قائليا a‏ بالفعل» و المعنية بالملخضصات Ew)‏ لااتات :ويحذرنا الفصل CAIN‏ من أن 
صحة أي استنتاجات نستقيها تعتمد كثيرًا على جودة البيانات الخام» ويوضح Lái‏ استر اتيجيات 
لجمع البيانات على نحو أكثر كفاءة. وإذا كانت البيانات إحدى ساقي الإحصاءء فإن ساقها الأخرى 
هي الاحتمال. ويقدم الفصل الرابع المفاهيم الأساسية للاحتمال. واستنادًا على ساقي البيانات 
والاحتمالات» يبدأ الإحصاء في الفصل الخامس المشي» مع وصف AS‏ استقاء المرء 
للاستنتاجات والتوصل لاستدلالات من البيانات. ويعرض الفصل السادس iad‏ خاطفة لبعض 
a apa Btls ally)‏ كيف أنها تشكل جزءًا من شبكة مترابطة من الأفكار والطرق 
لاستخراج الفهم من البيانات. وأخيرًاء يتناول الفصل السابع بعض الطرق التي أثر بها الكمبيوتر 
على الإحصاء. 


أود أن أشكر chal‏ كينواي» وشيلي شانون» ومارتن كرودرء وقارنًا مجهولا؛ على التعليق على 
cafus‏ هذا الكنات؟ E cha Y‏ اكات cela, ARS‏ على Lagu‏ الو كن في 
إمبريال «e ad SS‏ لندن 


الفصل الأول 
علم الإحصاء في كل مكان 


رذا على أولئك Quill‏ يقولون” Ley‏ أكاذيب» وأكاذيب dies‏ وإحصائيات»: Ule‏ ما 
أقتبس قول فريدريك موستلر: «الكذب بالإحصائيات سهل» ولكن الكذب بدونها أسهل.» 


ale (1)‏ الإحصاء الحديث 


أريد أن أبدأ بتأكيدٍ ربما oag‏ العديد من القراء مفاجنًا: «علم الإحصاء هو أكثر العلوم إثارة.» 
وهدفي في هذا الكتاب Ol‏ أوضح لك أن هذه العبارة صحيحة» وأن osi‏ لك السبب في صحتها. 


وآمل أن Aj‏ بعض المفاهيم الخاطئة القديمة حول طبيعة الإحصاءء وإظهار ما يبدو عليه ele‏ 
الإحصاء الحديث» وكذلك توضيح بعض من فوّته الهائلة» فضلا عن انتشاره. 


ule y‏ نحو خاصء أريد في هذا الفصل التمهيدي أن أنقل أمرين؛ أولهما: هو نكهة الثورة التي 
حدثت في العقود القليلة الماضية؛ فأريد أن أشرح كيف تحول الإحصاء من علم فيكتوري جاف 
معني بالتلاعب اليدوي بأعمدة الأرقام إلى تكنولوجيا حديثة متطورة للغاية تنطوي على استخدام 
أدوات البرمجيات الأكثر تقدمًا. وأريد توضيح كيف يستخدم إحصائيو اليوم هذه الأدوات لدراسة 
البيانات Bay‏ عن البنيات والأنماطء وكيفية استخدامهم لهذه التكنولوجيا لتقشير طبقات الحيرة 
والغموض وكشف الحقائق الموجودة تحتها؛ فعلم الإحصاء الحديث س على غرار التلسكوبات 
والمجاهر والأشعة السينية وأجهزة الرادار وأجهزة المسح الطبية — يمكننا من رؤية أشياء غير 
مرئية للعين المجردة؛ فهذا العلم يمكننا من الرؤية خلال الضباب والارتباك الموجود في العالم من 
حولنا؛ من أجل فهم الواقع الأساسي. 


هذا إذن هو أول شيء أريد أن أوصله خلال هذا الفصل: القوة والإثارة الهائلتان اللتان يضمهما 
ele‏ الإحصاء الحديث» والمصدر الذي ela‏ منهء والأشياء التي يقدر على فعلها. والشيء الثاني 
الذي أتمنى توصيله هو الوجود الكلي للإحصاء؛ فلا يوجد جانب من جوانب الحياة الحديثة لا يمسه 
ale‏ الإحصاء. إن الطب الحديث Lia‏ على ale‏ الإحصاء؛ فعلى سبيل cal‏ وُصفت التجارب 
العشوائية e‏ «واحدة من أدوات البحث الط والاقوق والأكثر ثورية.» وفهم 
العمليات التي د Nt‏ تنتشر الأوبئة من خلالها يمنعها من الفتك بالبشر. تعتمد الحكومة القديرة على 
التحليل الإحصائي الدقيق للبيانات في وصف الاقتصاد والمجتمع؛ وربما يمثل هذا حجة للإصرار 
على أن Ge qua‏ يكونون في الحكومة ينبغي أن يدرسوا دورات إلزامية في الإحصاء. 


والمزارعون ii s‏ الغذاء ومراكز التسوق يستخدمون جميعًا الإحصاء على نحو ضمني في تحديد 
ما يزرعونه» وكيفية معالجته» وكيفية تغليفه وتوزيعه. ويحدد الهيدرولوجيون مدى الارتفاع اللازم 
لبناء حواجز الفيضانات من خلال تحليل إحصائيات الأرصاد الجوية. ويبني المهندسون أنظمة 
الكمبيوتر باستخدام إحصائيات الموثوقية لضمان عدم تعطلها كثيرًا. Aoi fale: Adi,‏ الحركة 
الجوية على نماذج إحصائية معقدة بحيث تعمل بشكل لحظي (أي في ,الزمن الحقيقي). وعلى 
الرغم من نلك قد لا تدرك ذلك» فإن الأفكار والأدوات الإحصائية AS‏ في كل جوانب الحياة 
re‏ 


أحد التعريفات الجيدة لعلم الإحصاء أنه «تكنولوجيا استخراج المعنى من البيانات». ومع oll‏ لا 
يوجد تعريف مثالي؛ فعلى وجه الخصوصء لا يشير هذا التعريف إلى المصادفة والأحتمال» اللذين 
(Jas‏ دعامتين أساسيتين للعديد من تطبيقات الإحصاء؛ ومن ثم ربما يتمثل تعريف جيد خُر في أنه 
«تكنولوجيا التعامل مع عدم اليقين». ومع هذاء قد تضع تعريفات "PEN‏ أو تعريفات أكثر 6482 
مزيدًا من التركيز على الأدوار التي يلعبها علم الإحصاء. وهكذا يمكننا القول إن علم الإحصاء هو 
العلم الرئيس $i‏ بالمستقبل» أو «لصنع استنتاجات حول المجهول» أو «لإنتاج ملخصات 
مناسبة من البيانات». وعند جمع هذه التعريفات معًا فإنها تغطي على نحو واسع جوهر هذا 
المجال» > على الرغم من أن التطبيقات المختلفة ستوفر تجسيدات مختلفة laa‏ لهذا العلم؛ على سبيل 
المثال» اتخاذ القرارات والتنبؤ والرصد اللحظى والكشف عن الغش والتعداد السكانى وتحليل 
تسلسل الجينات كلها تطبيقات للإحصاءء ومع ذلك ربما تتطلب Gullah‏ وأدوات مختلفة للغاية. وثمة 
شيء تجدر ملاحظته حول هذه التعريفات؛ هو أنني Paus‏ اختيار كلمة «تكنولوجيا» بدلا من 
علم؛ فالتكنولوجيا هي تطبيق للعلم واكتشافاته» وهذا هو ماهية الإحصاء؛ تطبيق فهمنا لكيفية 
استخراج المعلومات من البيانات» وفهمنا لعدم اليقين. ومع ذلك»› يشار إلى الإحصاء أحيانًا على أنه 
ale‏ في caal sll‏ إحدى المجلات الإحصائية الأكثر إثارة وتشويقًا تسمّى بذلك الاسم فحسب: 
«العلوم الإحصائية». 


وحتى الآن في هذا الكتاب س وعلى وجه الخصوص في الفقرة السابقة س تناولت «الإحصاء»»› 
ويوجد شيء آخر سنتناوله في هذا الكتاب هو «الإحصائيات»» والإحصائية هي حقيقة رقمية أو 
ملخص؛ على سبيل المثال» ملخص للبيانات التي cea‏ بعض السكان؛ ربما حجم السكان أو معدل 
المواليد أو معدل الجريمة؛ إذن» يدور هذا الكتاب — من ناحية — حول الحقائق الرقمية الفردية. 
ولكن بالمعنى الحقيقي للغاية فهو يدور حول ما هو أكثر من ذلك بكثير؛ فهو يدور حول كيفية جمْع 
ومعالجة وتحليل واستنتاج أشياء من هذه الحقائق الرقمية. وهو يدور حول التكنولوجيا نفسها؛ وهذا 
يَعنِي أن القارئ الآمِل في أن 383 جداول أعداد في هذا الكتاب (على سبيل المثال «إحصائيات 
رياضية») فسوف يُصاب بخيبة أمل. ولكن القارئ الآمِل في التوصل لفهم كيفية اتخاذ الشركات 


للقرارات» وكيفية اكتشاف علماء الفلك لأنواع جديدة من النجوم» وكيفية تحديد الباحثين في مجال 
الطب للجينات المرتبطة بمرض معينء» وكيفية اتخاذ البنوك قرارًا بمنح أو عدم منح شخص ما 
بطاقة ائتمان» وكيفية تحديد شركات التأمين تكلفة القسطء وكيفية بناء مرشحات البريد المزعج التي 
تمنع الإعلانات المزعجة من الوصول إلى صندوق بريدك الإلكترونيء وما إلى ذلك؛ فإنه سوف 
يجد مأربه. 


كل ما سبق OR‏ الفارق بين السميين «الإحصاء» و«الإحصائيات»؛ فالإحصاء هو العلم 
الأساسي الشاملء أما الإحصائيات فيُقصّد بها الحقائق الرقمية أو الملخصات المندرجة تحت المظلة 
الكبرى لعلم الإحصاء. 


CREN‏ في تعريفي الأول كلمة «البيانات» . وكلمة «بيانات» في الإنجليزية Data‏ مشتقة من 
الكلمة اللاتينية datum‏ بمعنى «شيء «aes‏ المشتقة من dare‏ بمعنى «يعطي». bale‏ ما 
تكون البيانات أرقامًا؛ نتائج قياساتِ أو حساباتٍ أو غيرها من العمليات. ويمكن النظر لمثل هذه 
البيانات على أنها تقدّم تمثيلا مبسطا لما ندرسه. فإذا US‏ مهتمّين بأطفال المدارس» وبخاصة قدرتهم 
الأكاديمية ومدى ملاءمتهم لأنواع geall‏ المختلفة» ربما نختار دراسة الأرقام التي تصف نتائجهم 
في مختلف الاختبارات والامتحانات. 


وربما تمنحنا هذه الأرقام إشارة حيال قدراتهم وميولهم. باعتراف الجميع؛ لن يكون هذا التمثيل 
Lac Ola‏ ر bas eat dl!‏ إلى ا مكحا ما كان ر ارهن أشنا 
الامتحان. وعبارة aly‏ يحضر» لا تخبرنا بالكثير عن قدرة الطفل» ولكن تخبرنا فحسب أنه لم 
تخسن Cll‏ سأتحدث بشكل أكثر استفاضة عن «جودة البيانات» في وقت لاحق» وهي مهمة 
بسبب المبدأ العام (الذي ينطبق على جميع جوانب الحياةء وليس فقط في الإحصائيات) القاضي بأنه 
إذا كانت المادة الخام التي تعمل عليها رديئةء فإن النتائج ستكون رديئة. يستطيع الإحصائيون فهم 
أشياء كثيرة مذهلة من الأرقام» لكنهم لا يمكن أن يصنعوا المعجزات. 

بطبيعة الحال» يبدو أن حالات كثيرة لا تنج بيانات رقمية مباشرة؛ فالكثير من البيانات الخام قد 
تكون في شكل صور أو كلمات أو حتى أشياء مثل إشارات إلكترونية أو صوتية؛ ومن ثم فإن 
صور الأقمار الصناعية للمحاصيل أو تغطية الغابات المَطيرةء والأوصاف اللفظية للآثار الجانبية 
التي تحدث عند تناول cel pal‏ والأصوات الملفوظة عند التحدث؛ لا تأخذ مَظهر الأرقام. ومع ذلك»› 
يُظهر الفحص الدقيق أنه cular Dates‏ هذه oL‏ و ل » فإنها تترجَم إلى تمثيلات رقمية أو إلى 
تمد يلات يمكن أن تُترجّم بعد ذلك إلى أرقام؛ على سبيل المثال» صور الأقمار الصناعية والصور 
الأخرى تمثل بملايين العناصر الصغيرة التي تُسمّى وحدات البكسل» وكل lla‏ يوصف من حيث 
sal‏ (الرقمية) للألوان المختلفة التي تشكلها ويمكن معالجة (yall‏ فى صورة hae‏ للكلمات أو 
مقاييس للتشابه بين الكلمات والعبارات؛ وهذا هو نوع التمثيل المستخدم من قبل CAS Ra‏ البحث 
على شبكة الإنترنت مثل جوجل. diis‏ الكلمات المنطوقة من خلال الكثافات الرقمية للأشكال 
الموجية التي تشكّل الأجزاء المفردة من الكلام. وعلى نحو عام» رغم أنه ليست جميع البيانات 


أرقامّاء فإن معظم البيانات تترجّم إلى شكل رقمي في مرحلة bs‏ ومعظم الإحصائيات تتعامل مع 
البيانات الرقمية. 


نسبت عبارة Lady‏ أكاذيب» وأكاذيب بغيضة»ء وإحصائيات» س المذكورة في بداية هذا الفصل ‏ 
على وجوه مختلفة إلى مارك Gast‏ وبنيامين دزرائيلي» وغيرهما. كما 353 على لسان العديد من 
الأشخاص تصريحات مماثلة؛ منها: ule»‏ غرار الأحلام» الإحصائيات هي شكل من أشكال تحقيق 
الرغبات» (جون بودريار» في GUS‏ «ذكريات («Abas‏ الفصل الرابع)» و«... عبادة 
الإحصائيات Gal‏ على نحو خاص إلى نتيجة مؤسفة تمثلث في جعل مهمة الكاذب الصرف أسهل 
بكثير» (توم بورنام» في US‏ «قاموس التضليل»)» و «الإحصائيات هي «خُرغبلات» مدعومة 
بالأرقام» (أودري هابيرا وريتشارد رونيون» في GUS‏ «الإحصائيات العامة»)» و«الإجراءات 
القانونية مثل الإحصائيات؛ إذا تلاعبت بهاء يمكنك أن تثبت GI‏ شيء» (آرثر هيلي» في رواية 
«المطار»)؛ وما إلى ذلك. 


من الواضح أنه يوجد كثير من Sha GLa‏ الإحصائيات» وربما نتساءل أيضًا ما إذا كان هناك 
عنصعر:خوت من هذا المجال. من المؤكد أن الإحصائي غالبًا ما يلعب دور شخص يجب عليه 
توخي sl‏ وربما حتى يكون حامل الأخبار السكة . والإحصائيون العاملون في البيئات البحثية 
à‏ سياقات کون عليهم شرح أن 
البيانات غير كافية للإجابة عن سؤال معين» أو أن الجواب ببساطة ليس ما أراد الباحث سَمَاعَه 
وربما يكون هذا أمرًا مؤسفا من وجهة نظر الباحث» ولكن ليس من الإنصاف إلقاء اللوم على 
Biles) Ala JM Lais‏ 


في كثير من الحالات» تتولد الشكوك بسبب أولئك الذين يختارون الإحصائيات انتقائيًا. فإذا كان 
هناك أكثر من طريقة لتلخيص مجموعة من البيانات» وتنبع كل منها بالنظر في جوانب مختلفة 
قليلاء فإن الأشخاص المختلفين حيتها يمكن أن يختاروا التركيز على ملخصات مختلفة. وثمة مثال 
محدد في إحصائيات الجريمة؛ ففي بريطانياء ربما ab‏ أهم مصدر لإحصائيات الجريمة هو 
«استقصاء الجريمة البريطانية»» وهذا الاستقصاء يُقدّر مستوى الجريمة عن طريق سؤال عيّنة 
من الناس مباشرة عن الجرائم التي وقعوا ضحايا لها خلال العام الماضي. في المقابل» فإن سلسلة 
«إحصائيات الجرائم المسجّلة» تشمل جميع الجرائم المُبلغ عنها إلى وزارة الداخلية والتي GIL.‏ 
الشرطة. وبطبيعتهاء لا تشمل هذه الإحصائيات بعص الجرائم البسيطة as‏ بون .ذلك اة 
الحال أنها تستثني الجرائم التي لم تبلغ عنها الشرطة في المقام الأول. وبوجود مثل هذه 
الاختلاة ت» ليس من المستغرّب أن الأرقام يمكن أن تختلف بين مجموعتّي الإحصائيات» لدرجة 
أن فئات معينة من الجرائم ربما تبدو آخذة في التناقص على مر الزمن وفقا لإحدى مجموعتي 
الأرقام فيما تكون آخذة في في التزايد وفقا للمجموعة الأخرى. 


أرقام إحصائيات الجريمة توضح أيضًا سببًا محتملا آخر للتشكك في الإحصائيات؛ فعند استخدام 
مقياس معين كمؤشر لأداء نظام cle‏ ربما يختار الأشخاص استهداف هذا المقياس» فيُحسنون قيمته 
OSI;‏ على حساب جوانب أخرّى من النظام؛ ومن ثم يتحسن المقياس المختار على نحو غير 
متكافئ» ويصبح عديم الفائدة كمقياس لأداء النظام؛ على سبيل المثال» يمكن للشرطة أن تقلل من 
معدل سرقة المتاجر من خلال تركيز كل مواردها على تلك الجريمة» على حساب السماح بزيادة 
أنواع أخرى من الجريمة؛ ونتيجة لذلك» فإن معدل سرقة المتاجر يصبح عديم الفائدة كمؤشر على 
معدل الجريمة. وقد Cau‏ هذه الظاهرة باسم «قانون جودهارت»» A‏ بتشارلز جودهارت» وهو 
كبير مستشارين سابقا في «مصرف إنجلترا». 

21 eee dm tS ER QUEE DS ime 
Aid لا نفهمهاء والحل هو إزالة سوء‎ E تمامًا أن تكون متشككين كيال الأشياء‎ 


مع ذلك» ثمة سبب آخر للتشكك Lay‏ أساسًا نتيجة لطبيعة التقدم العلمي؛ ومن ثم ربما نقرأ في يوم 
عن اذام في مكح ey gos ae Sue le‏ عع انرز العا فار plese‏ 
الخال 3 تشير إلى أنه as‏ بطبيعة Jal‏ يولد ذلك التباسًا؛ GI‏ شعورًا Ob‏ العلماء Y‏ يعرفون 
vis adi‏ 5 أنه لا يمكن الوثوق بهم. وحتمًا مثل هذه التحقيقات العلمية تستخد م التحليلات 
الإحصائية على نحو مكثف؛ ومن ثم فإن بعضًا من هذه الشكوك ينتقل إلى ا . ولكن 
جوهر التقدم العلمي هو تحقيق اكتشافات جديدة pei‏ تغيّر فهمنا؛ فرغم US Lil‏ نظن في الماضي أن 
الدهون ن إضارة aa all‏ كفا acera‏ الذر نات إلى إدراك أنه يوجد أنواع مختلفة من 
الدهون؛ بعضها مفيد وبعضها ضار. إن الصورة أكثر تعقيدًا مما US‏ نعتقد في البداية؛ لذلك ليس 
من المستغرّب أن تؤدّي الدراسات الأولية إلى استنتاجات تبدو متضاربة ومتناقضة. 


والسبب الرابع للتشكك ينشأ من سوء فهم أوليٌّ لمبادئ الإحصاء. وكتمرين» ربما يحاول القارئ أن 
يحدد ما هو مثير للشكوك في كل من العبارات التالية (الأجوبة موجودة في التعليقات الختامية في 
آخر الكتاب): 

O)‏ نقرأ في تقرير ما أن التشخيص المبكر للمرض يؤدي إلى التمتع بمعدلات عمرية أطول؛ 
eg‏ فإن برامج الفحص مفيدة. 


(Y)‏ قيل Ul‏ إن السعر المُعلّن Gadd‏ بالفعل بنسبة خصم 755 للعملاء المؤهّلين» ولكننا لسنا 
مؤهلين؛ لذلك علينا دفع ٠١‏ أكثر من السعر المعلن. 

ISl c ial في القرن‎ Ule ٠١١ متوسط العمر المتوقع سوف يصل إلى‎ gh تسمع تنبوًا‎ (Y) 
إلى استقراء بسيط من الزيادات على مدى السنوات المائة الماضية.‎ 


)£( قيل لنا: «منذ عام ١٠۹٠ء‏ تَضاعف كل عام dre‏ الأطفال الأمريكيين الذين تعرضوا 
لحادث إطلاق نار .« 


osi‏ لا يكون سوء الفهم dual GE‏ أو على الأقل» Lay‏ عن مفاهيم إحصائية عميقة نسبيًا. 
سيكون مستغربًا ألا يوجد بعض الأفكار العميقة المناقضة للبديهة في الإحصاء بعد أكثر من قرن 
من التطور. وتتمثل إحدى هذه الأفكار فيما يعرف "PA PPS exl‏ المدعي»» وتصف الخلط بين 
احتمال أن شيئًا ما سوف يكون صحيحًا ule)‏ سبيل المثال» المتهم مذنب) إذا كان لديك بعض 
الأدلة (على سبيل المثال» قفازات المدعَى عليه في مسرح «(Aap yall‏ مع احتمال العثور على هذا 
الدليل إذا كنت تفترض أن المتهم مذنب. وهذا خلط شائع س ليس في المحاكم فحسب — وسوف 
نتناوله على نحو أوثق في وقت لاحق. 


إذا كان هناك شك وعدم ثقة في الإحصائيات» فمن الواضح أن اللوم لا يقع على الإحصائيات أو 
كيفية حسابهاء وإنما يقع على طريقة استخدام تلك الإحصائيات. وليس من العدل lal)‏ اللوم على 
العلم» أو الإحصائي الذي يستخرج المعنى من البيانات؛ بل إن اللوم يقع على أولئك الذين Y‏ 
يفهمون ما تقوله الأرقام» أو الذين يتعمّدون إساءة استخدام النتائج؛ فنحن لا نلوم البندقية على قثل 
أحدهم» بل الشخص الذي أطلق الرصاص من البندقية هو المَلوم. 


)£( البيانات 


رأينا أن البيانات هي المادة الخام التي بني عليها الإحصاءء وكذلك هي المادة الخام التي تحسب 
منها الإحصائيات الفردية نفسّهاء وأن هذه البيانات Bale‏ ما تكون أرقامًا. ومع ذلك» فإن البيانات في 
الواقع أكثر من مجرد أرقام. As‏ تكون مفيدة س Gi‏ تمكننا من القيام ببعض التحليلات 
الإحصائية ذات المغزى — يجب أن ترتبط هذه الأرقام بمعنّى؛ فعلى سبيل المثال» نحن بحاجة 
إلى معرفة ما «تقيسه» القياسات» وما تم عَذه عندما يُعرض علينا تعداد. ولتحقيق نتائج صحيحة 
ودقيقة عندما نقوم بتنفيذ تحليل إحصائي» نحتاج أيضًا أن نعرف شيئًا عن كيفية الحصول على هذه 
pil‏ هل أجاب جميع oa‏ سألناهم على الاستبيان» أم أجاب بعض الأشخاص فحسب؟ وإذا أجاب 
بعض الأشخاص فحسبء فهل هم يمثلون المجموعة التي 39 أن ثدلِي ببيان حولها على نحو ملائم 
cl‏ إن العينة مشوّهة بطريقة ما؟ cA‏ على سبيل المثال» تستبعد عيّنتنا الشبات على نحو غير 
متكافئ؟ وبالمثلء فإننا بحاجة إلى معرفة ما إذا انسحب مرضى من التجارب السريرية؛ وما إذا 
كانت البيانات مُحدَثة أم لا. ونحتاج إلى معرفة ما إذا كانت أداة القياس موثوقا بها أم لاء أو هل 
كانت ceu adi Leal‏ 'تسكل ene‏ تكو القيمة الحقيقية iri ja‏ على نحو مفرط. هل لنا أن 
نفترض أن معدل النبض الذي ails‏ الممرضة دقيق al‏ إنه قيمة تقريبية Y xx Adi fomai‏ 
حصر له من (Ra‏ هذه الأسئلة يمكن طرحه»ء ونحتاج إلى أن نكون متنبّهين لتلك الأسئلة التي يمكن 


أن تؤثّر على النتائج التي نستخلصها. وإذا لم نفعل cal‏ فستصبح الشكوك من النوع المذكور ÚJ‏ 


مشروعة تمامًا. 


dui‏ إحدى طرق النظر إلى البيانات m‏ اعتبارها «أدلةي؛ Osu‏ بيانات» تصبح أفكارنا 
ونظرياتنا حيال العالم محض تكهنات. وتوفر البيانات معرفة أساسية تربط أفكارنا ونظرياتنا 
بالواقع» وتسمح Ub‏ بالتحقق من صحة فهمنا واختباره. بعد ذلك CUN:‏ الأساليب الإحصائية 
لمقارنة البيانات مع أفكارنا ونظرياتناء لنرى مدى توافق بعضها مع بعض. وسوء التوافق يدفعنا 
إلى التفكير مرة أخرى وإعادة تقييم أفكارنا وإعادة صياغتها لكي تتطابق على نحو أفضل مع 
الواقع المرصود. ولكن ربما يجدر وضع ملاحظة تحذيرية هنا؛ وهي أن سوء التوافق يمكن أيضًا 
أن يكون LIL‏ عن سوء جودة البيانات. يجب أن نكون منتبهين لهذا الاحتمال؛ فربما تكون نظرياتنا 

سليمة ولكن قد تكون أدوات القياس inea‏ بطريقة ما. ومع ذلك» فالتطابق الجيد بين البيانات 
المرصودة وما تقوله نظرياتنا Ue‏ ينبغي أن تكون عليه البيانات Sy‏ کو هلي كا ide‏ 
الطريق الصحيح. وذلك يؤكد على أن أفكارنا تعكس حقا حقيقة ما يجري. 


يستتبع ذلك ضمنًا أنه لكي تكون أفكارنا ونظرياتنا ذات s Fhe‏ يجب أن تسفِر عن توقعات يمكن 
مقارنتها مع البيانات الموجودة لدينا. فإذا لم تخبرنا النظريات بما ينبغي أن نتوقع ملاحظتهء »> أو إذا 
كانت التوقعات عامة للغاية بحيث إن أي بيانات سوف تتوافق مع نظرياتناء فإنها لن تكون ذات 
فائدة كبيرة؛ فأي بيانات ستتوافق معها. وقد انتقد التحليل النفسي والتنجيم على هذه الأسس. 


كما تسمح البيانات لنا بتحسس طريقنا عبر العالم Mas Fabel‏ قزر ات سول jal cil.‏ ات 
التي يجب القيام بها؛ فنحن نأخذ قياساتناء ونحسب المجاميع الكلية» ونستخدم الأساليب الإحصائية 
لاستخراج ج المعلومات من هذه البيانات لوصف الكيفية التي يسير بها العالم وما علينا أن نفعل لجعله 
يسير 0 النحو الذي نريد. وهذه المبادئ توضحها أشياء She‏ الطيار الآلي في الطائرةء وأنظمة 
اليلاحة بالأقمار الصناعية في السيارات» والمؤشرات الاقتصادية مثل معدل التضخم والناتج 
المحلي الإجمالي» ومراقبة المرضى في وحدات العناية المركزة» وتقييم السياسات الاجتماعية 
المعقدة. 


ونظرًا للدور الأساسي الذي تلعبه البيانات بوصفها الرابط بين ملاحظاتنا للعالم من حولنا وبين 
أفكارنا وفهمنا لهذا العالم» فإنه ليس من قبيل المبالغة أن نَصِف البيانات — وتكنولوجيا استخراج 
المعنى منها س باعتبارها حجر الأساس للحضارة الحديثة . وهذا هو السبب في أنني TENER‏ 


العنوان الفرعي «كيف تتحكم البيانات في عالمنا؟» لكتابي «توليد المعلومات» (انظر قسم 
القراءات الإضافية). 


ale (0)‏ الإحصاء الأعظم 


203 2000121 105 Rie uu ae 
asl في نهاية المطاف لتصبح علم الإحصاء الحديث . تمثل‎ Great الإحصاء المبعر عدة فروع»‎ 
هذه الفروع في فهم الإحتمالات» وهو أمر يعود تاريخه إلى منتصف القرن السابع عشرء ونبع‎ 
من الأسئلة المتعلقة بالمقامرة. وتمتل آخَر في إدراك أن القياسات نادرًا ما تكون خالية من‎ Gija 
حاجة إلى بعض التحليل لاستخراج معنى معقول منها. وفي السنوات‎ Gay ولذلك‎ «e aa MI 
التدريجي للبيانات الإحصائية لتمكين الحكومات من إدارة بلدانها. وفي الواقع» هذا الاستخدام هو‎ 
State «إحصائيات»؛ فهي بيانات عن الدولة‎ View Statistics الذي أدى إلى ظهور كلمة‎ 

“تملك كل الذوق deest‏ الا coda‏ لحضناء (abes‏ ا 


ale 5a‏ الإحصاءء خلال تطوره بعدة مراحل. تميّزت المرحلة الأولى س التي امتدّت حتى نهاية 
القرن التاسع عشر تقريبًا - بالاستكشافات العشوائية للبيانات. ثم شهد النصف الأول من القرن 
العشرين اكتساب الإحصاء للصبغة الرياضية» لدرجة أن الكثيرين رأؤها فرعًا من الرياضيات 
(إنها تتعامل مع cal OI‏ أليس كذلك؟) وبالفعل؛ لا يزال الإحصائيون في الجامعة غالبا ما يدرسون 
الإحصاء داخل أقسام الرياضيات. ai‏ النصف الثاني من القرن العشرين ظهور الكمبيوتر» وكان 
هذا التغيير هو الذي HI‏ بالإحصاء من كونها عملا صعبًا إلى عمل مُمْتِع؛ فقد أزال الكمبيوتر 
الحاجة لامتلاك ممارسي الإحصاء لمهارات حسابية خاصة» فلم يعودوا بحاجة لقضاء ساعات 
طويلة في معالجة الأرقام. وهذا ممائل للتغيير من الحاجة إلى المشي إلى كل مكان للقدرة على 
قيادة السيارة ys‏ فالرحالات الى كانت تستغرق في السابق PE‏ أصبحت الان تستغرق دقائق» 
والرحلات التي كانت طويلة للغاية لدرجة تمتع التفكير فيها أصبحت GY!‏ ممكنة 


api‏ النصف الثاني من القرن العشرين أيضًا ظهور مدارس أخرى لتحليل البيانات» لا تعود 
أصولها لعلم الإحصاء الكلاسيكي ولكنْ لمجالات cc hl‏ خاصة علوم الكمبيوتر. وتشمل هذه 
المدارس التعلم الآلي والتعرف على الأنماط والتنقيب عن البيانات. وبينما تطورت هذه 
التخصصات الأخرى» كانت تحدث في بعض الأحيان توترات بين هذه المدارس المختلفة 
والإحصاء. ومع ذلكء فالحقيقة هي أن وجهات النظر المتفاوتة التي تقدّمها هذه المدارس المختلفة 
ساهمت جميعها بشيء في تحليل البيانات» إلى حد أن الإحصائيين الجدد في الوقت الحالي 
يختارون بخحُرية من الأدوات e‏ توفرها جميع هذه المجالات . وسأذكر بعض هذه الأدوات في 
وقت لاحق. eae ge‏ بهذا قي Ch gun «lie‏ أتبنى في هذا Gi ye LSI‏ و ss baa U Lal‏ مهتديًا 
بتعريف alc»‏ الإحصاء الأعظم» الذي قدمه الإحصائي البارز جون تشامبرز» الذي قال: «يمكن 
تعريف علم الإحصاء الأعظم ببساطة س وإِنْ كان على نحو غير مُحكم — بأنه كل ما يتعلق 
«بالتعلم من البيانات»» من التخطيط أو الجمع الأول حتى العرض أو التقرير الأخير. » أما محاولة 
وضع حدود بين تخصصات تحليل البيانات المختلفة» فهي عملية غير مُجدِية ولا طائل من ورائها. 


إذن» le‏ الإحصاء الحديث لا يَدُور حول الحساب» وإنما يدور حول «الاستقصاء»» بل إن البعض 
ale cia,‏ الإحصاء ail‏ «تطبيق الأسلوب العلمي». ومع أننا ما زلنا نجد في كثير من الأحيان 
أن العديد من الإحصائيين يعملون انطلاقا من أقسام الرياضيات في الجامعات كما أشرث آنقاء فإننا 
نجدهم أيضًا في كليات الطب وأقسام العلوم الاجتماعية» بما في ذلك الاقتصاد والعديد من الأقسام 
الأخرى التي تتراوح بين الهندسة إلى علم النفس. وفي خارج الجامعات» تعمل أعداد كبيرة في 
åa Sall‏ والصناعة» وفي القطاع الدوائي» والتسويق» والاتصالات» والخدمات المصرفية» 
ومجموعة كبيرة من المجالات الأخرىء فجميع المُديرين يعتمدون على المهارات الإحصائية 
لمساعدتهم في تفسير البيانات التي تصف أقسامهم وشركاتهم وإنتاجهم والموظفين وما إلى ذلك. لا 
يستخدم هؤلاء الأشخاص الرموز والصيغ الرياضيةء ولكن يستخدمون الأدوات والأساليب 
الإحصائية لاكتساب المعرفة والفهم من الأدلة؛ أي البيانات. وللقيام بذلك» فإنهم يحتاجون إلى 
دراسة مجموعة واسعة من الأمور غير الرياضية في جوهرها؛ مثل جودة البيانات» وشكلها وكيفية 
جمعهاء وتحديد المشكلةء وتحديد الهدف الأكبر للتحليل (الفهم والتنبؤ والقرارء وما إلى (IS‏ مع 
تحديد مقدار عدم اليقين المرتبط بالنتائج» ومجموعة من الأمور الأخرى. 


كما آمل أذ of MON‏ اشم cgjus bee‏ فإن ale‏ الاتصباء cage gt 21S‏ إذ dai‏ جميع مناحي 
الحياة. وقد كان لذلك تأثير متباتل على تطور ale‏ الإحصاء نفسه؛ فبينما ER i‏ 
الإحصائية فى مجالات جديدة» Gal‏ المشاكل والمتطلبات والخصائص المعينة لتلك المجالات إلى 
تطويق, أبتاليب ا و اك اخصيافية حديةة Seay‏ :ذلك جرد AY‏ وت هذه الأساليب والأدوات 

الجديدة» انتشرت ووجدت تطبيقات لها في مجالات أخرى. 


)9( د بعض الأمثلة 


مثال :١‏ فَلّترة البريد المزعج 


«البريد المزعج» هو مصطلح يستخدم لوصف رسائل البريد الإلكتروني غير المرغوب فيها 
ALL. yall‏ تلقائيًا إلى العديد من المتسلمين؛ Bale‏ ما يَصل عددهم إلى ملايين المتسلمين. هذه الرسائل 
رسائل دعائية» وغالبًا ما تكون dae ja‏ وربما تكون واجهات لمُحتالين. وهي تشمل أشياء Jia‏ 
عروض دمج الديون» وخطط ce pl el jill‏ والأدوية التي لا تصرف إلا بوصفة طبية» ونصائح 
حول سوق الأسهم» وأدوات جنسية غريبة. والمبدأ الأساسي في هذه الرسائل هو أنه LE‏ 
عددًا GAlS‏ من الناس» من المحتمل أن يُصبح بعضهم مهتمًا ‏ أو ينخدع ‏ بعرضك. ومالم تكن 

الرسائل آتية من منظمات calla‏ منها على وجه التحديد معلومات» فإن معظمها لن يكون مثيرًا 
للاهتمام» ولن يرغب أحد في تضييع وقته في قراءتها وحذفها. وهو ما يقودنا إلى مرشحات البريد 
المزعج؛ وهي برامج حاسوبية تفحص تلقائيًا رسائل البريد الإلكتروني الواردة وتحدد الرسائل التي 
من المحتمل أن تكون غير مرغوب فيها. ويمكن برمجة المرشحات بحيث يَحذف البرنامج الرسائل 


غير المرغوب فيها تلقائيّاء أو يرسلها إلى مجلد تخزين للفحص لاحقاء أو يتخذ بعض الإجراءات 
الأخرى Asa]‏ توجد تقديرات مختلفة لكمية البريد المزعج ج التي ترسل» ولكن في وقت كتابة هذا 
الكتاب» يُشير أحد التقديرات إلى أنه ترسل أكثر من 3١‏ مليار رسالة من البريد غير المرغوب فيه 
كل يوم؛ وبما أن هذا العدد يرتفع ارتفاعًا MS‏ كل شهرء فمن المرجح أن يكون أكبر بكثير في 
وقت قراءتك لهذا الكتاب. 


ثمة تقنيات عديدة لمنع البريد غير المرغوب فيه. تتحقق بعض الطرق البسيطة للغاية فحسب من 
وجود كلمات أساسية في الرسالة؛ على سبيل المثال» إذا كانت رسالة تتضمن كلمة viagra‏ 
cal gad‏ ریما تحظر : ومع ذلك» فإن إحدى خصائص رصد البريد pu‏ أنها تشبه سباق 
التسلح؛ فبمجرد أن يدرك المسئولون عن الرسائل أن رسائلهم حُظرت بطريقة معينة» يسعَوْن إلى 
أساليب للالتفاف حول هذه الطريقة؛ على سبيل المثال» ربما يتعمدون كتابة viagra‏ على نحو 
خاطئ في صورة viagra‏ أو -jagra‏ بحيث يمكنك التعرف عليها ولكن دون أن يتمكن 
البرنامج التلقائي من التعرف عليها. 


تستند أدوات رصد البريد غير المرغوب فيه الأكثر تطورًا على نماذج إحصائية للمحتوى الكلامي 
لرسائل البريد غير المرغوب فيه؛ فعلى سبيل المثال» ربما تستخدم تقديرات لاحتمالات وجود 
oT‏ بون ud c a Sec o er ER due‏ وبعد 

تصبح الرسالة التي تحتوي على الكثير من الكلمات العالية الاحتمال موضع AB‏ وتبني 
um‏ ت الأكثر wie ds‏ لاحتمالية أن كلمة واحدة ستتبع كلمة أخرى في تسلسل؛ ومن & 
تتمكن من رصد العبارات ومجموعات الكلمات المشبوهة. علاوة على ذلك» تستخدم أساليب أخرى 
نماذج إحصائية للصور لرصد أشياء مثل لون البشرة ذ في الصورة المرسلة عبر البريد الإلكتروني. 


:١ Qua‏ قضية سالي كلارك 


في عام 61994 خضعت سالي كلارك سو ا Cita‏ 
وحُكم عليها بالسجن مدى الحياة (HS‏ طفليْها. توفي طفلها الأول في عام 5 ؛ عن عمر يبلغ 
cle gual ١‏ ومات طفلها الثاني في عام ۱۹۹۸ء عن عمر يبلغ A‏ أسابيع. واعتمد الحكم على ما 
أصبح نموذجًا لسوء agi‏ واستخدام الإحصائيات» عندما اذعى طبيب الأطفال السير روي مدوء في 
دوره كشاهد خبير لصالح cele Syl‏ أن احتمالية Cs gall‏ المفاجئ لطفلين كانت ١‏ من بين VY‏ مليون 
حالة. وقد حصل على هذا الرقم ببساطة عن طريق ضرب احتمالية حالتي الوفاة Les‏ على نحو 
منفصل. وبقيامه بذلك» algal,‏ بأساسيات الإحصاءء تجاهّل LS‏ حقيقة أن حدوث واحدة من 
حالات الوفاة تلك في أي أسرة من المرجح أن يعني ارتفاع احتمالية حدوث وفاة أخرى. 


تبيّن دراسة البيانات السابقة أن احتمال تعرُض أي طفل مختار Gil gie‏ للموت المفاجئ في أسرة 
مثل أسرة dl S‏ يبلغ حوالي .65٠00/١‏ وإذا افترضنا بالتبعية أن وقوع Ala‏ وفاة مثل هذه لا 
يُغير احتمال وقوع حالة sal‏ فإن فرصة وقوع حالتين من هذه الوفيات في الأسرة نفسها ستكون 
A‏ ۰ مضروبًا في AO’ A‏ أي واحدًا من VY.‏ مليوتا. SG‏ أن هذا الافتراض جريء» ويشير 


التحليل الإحصائي الدقيق للبيانات السابقة إلى أنه في الواقع تزداد فرصة حدوث موت مفاجئ QU‏ 
كثيرًا عند وقوع Alla‏ مماثلة قبل ذلك بالفعل . وفي الواقع» تشير الحسابات إلى أن العديد من حالات 
الوفاة المتعدّدة ة تلك ينبغي أن يُتوقع حدوثها كل عام في دولة بحجم المملكة المتحدة. ويقول الموقع 
الإلكتروني لمؤسسة دراسة أسباب موت الأطفال: «من النادر جذا حدوث Cr gall‏ المفاجئ مرتين 
في الأسرة نفسهاء على الرغم من أن اضطرابًا ورائيًا في بعض الأحيان س مثل وجود JIS‏ 
أيضي — قد يسبب موت FI)‏ من رضيع على نحو غير متوقع.» 


فى Rad‏ سای cl DIS‏ کان ja ase‏ من BAM ALN‏ تشير إلى براءتهاء وفى يي النهاية أصبح من 
الواضح أن leu‏ الثاني كان يعاڼِي عَدْوَى بكتيرية coe‏ أنها Cid‏ موت الرضيع المفاجئ. 
وأطلق سراح السيدة كلارك بعد ذلك في الاستئناف في عام Ye T‏ ومن المأساوي أنها توفيت في 
مارس من عام ۲۰۰۷ عن عمر يبلغ Ule £Y‏ فحسب. ويوجد مزيد من التفاصيل عن سوء الفهم 
رفوو ال علدت في يقال ALES ce‏ مرليق. حرس على اوی jg‏ فى 
قسم القراءات الإضافية في نهاية هذا الكتاب. 


مثال ”": عناقيد aa‏ 


مع ازدياد قدرتنا على سَبْر المزيد والمزيد من أغوار الكون» أصبح من الواضح أن الأجرام 
السماوية تميل إلى clas m‏ وتفعل ذلك بطريقة هرمية؛ حيث تشكل النجوم عناقيد» وعناقيد 
النجوم نفسها تشكل عناقيد على مستوّى أعلى» وهذه العناقيد الأعلى تتجمع بدَؤرها في عناقيد أكبر. 
وعلى وجه التحديد» مجرّتنا س والتي هي عنقود من النجوم — e ja‏ من «المجموعة المحلية» 
المكونة من حوالي ثلانين مجر b‏ وهذه المجموعة بدورها جزء من «العنقود المجرّي المحلي 
الهائل». على النطاق الأوسع؛ يبدو الكون بالأحرى مثل الرغوة» مع وجود خيوط تتكون من 
عناقد محرية فائقة واقعة على Cal ge‏ مساخات فارغة شاسعة: OSI,‏ كيف اكتثشقف كل Sa‏ فحت 
لو استخدمنا تلسكوبات قوية للنظر خارج الأرضء فإننا نرى ببساطة سماءً مليئة بالنجوم. والجواب 
هو أن استنتاج وجود هذا الهيكل العنقودي س بل واكتشافه في المقام الأول س تطلب تقنيات 
إحصائية. وتشمل إحدى Gla‏ هذه التقنيات حساب المسافات بين كل نجم وعدد قليل من النجوم 
الأقرب إليه. والنجوم التي يكون عدد النجوم القريبة منها أكبر مما هو متوقع تكون واقعة في 
مناطق كثيفة محليًا؛ أي إنها تشكّل عناقيد محلية. 


callo‏ « يتعلق الأمر بأكثر من ذلك بكثير؛ GAAS‏ الغبار بين النجوم ستحجب رؤية. الأشياء البعيدةء 
وسحب الغبار هذه ليست Ae) a‏ على نحو موحّد في الفضاء . وبالمثل» TEM‏ الأجرام الباهتة y!‏ 
إذا كانت قريبة بما فيه الكفاية من الأرض. والخيط الرفيع من المجرات الذي ترى نهايته من 
الأرض يمكن أن يبدو كعنقود كثيف» وهكذا. وينبغي تطبيق تصحيحات إحصائية متطورة حتى 
نتمكن من تمييز الحقيقة الكامنة من التوزيعات الظاهرية للأجرام السماوية. 


t1. eoa x epo, ^. oe .‏ 
إن فهم بنية الكون يلقي الضوء على كيفية تشكله» (ule g‏ تطوره المستقبلي. 


مثال :٤‏ تصنيع المواد الكيميائية 


أشرث بالفعل إلى أنه في حين أن الإحصائيين ربما يكونون قادرين على القيام بأمور ilaia‏ فإنهم 
لا يمكن أن يحققوا معجزات؛ وبالتحديد» سوف تتحدد جودة استنتاجاتهم Le go‏ بجودة البيانات. في 
ضوء هذا الأمرء ليس من المستغرب وجود تخصصات فرعية مهمة في الإحصاء معنية بأفضل 
OA‏ لجمع البيانات» وتناقش هذه التخصصات الفرعية في الفصل الثالث. يتمثل أحد هذه 
التخصصات الفرعية في «التصميم التجريبي»» SR;‏ تقنيات التصميم التجريبي في الحالات 
التي من الممكن فيها التحكم أو التلاعب في بعض «المتغيرات» الخاضعة للدراسة. usá,‏ أدوات 
التصميم التجريبي من استخراج أقصى قدر من المعلومات بالنسبة T»!‏ استخدام معين للموارد؛ 
فعلى سبيل المثال» في إنتاج بوليمر كيميائي معين ربما نكون قادرين على hua‏ درجة الحرارة 
والضغط ووقت التفاعل الكيميائي بأي a‏ نريدها. lls‏ المختلفة لهذه المتغيرات الثلاثة ستؤدي 
إلى اختلافات في جودة المنتج النهائي. والسؤال هو: ما هي أفضل مجموعة من القيم؟ 


oid الإجابة عنه؛ فنصنع ببساطة العديد من كميات البوليمر» لكل منها‎ pag هذا سؤال‎ cass 
مختلفة من المتغيرات الثلاثة. وهذا يسمح لنا بتقدير «استجابة السطح»» والتي تبيّن جودة البوليمر‎ 
المتغيرات الثلاثة» ويمكننا بعد ذلك اختيار القيّم الثلاث المحددة التي تزيد‎ ad عند كل مجموعة من‎ 
الجودة إلى الحد الأقصى.‎ 


ولكن ماذا لو كانت عملية التصنيع من النوع الذي يستغرق عدة أيام لصنع كل كمية؟ إن صنع 
D‏ هذه الكميات لمجرد التوصل إلى أفضل طريقة للقيام بذلك ربما يكون Fd‏ صعب 

pe peo eu Ro c o nu ng 
الكميات أن‎ ioa عددها قل بكار وي يعض الأحيان يمكن لنسبة‎ d مختارة بعناية من‎ 


Desc; oc d‏ لمات 


إن إدارة أي مؤسسة للبيع بالتجزئة على نحو clad‏ بحيث تحقق ربحًا وتنمو مع مرور الوقت» 
جلك راد اهتمام دقيق للعملاء» ومنحهم المنتج أو الخدمة التي يريدونها. والفشل في القيام بذلك 
يعني أنهم سيتوجهون إلى مُنافِس pii‏ ما هو مطلوب. بيت القصيد هنا هو أن الفشل سوف يتضح 
تا الإيرادات. ويمكننا محاولة تجنب ذلك من خلال جمع بيانات حول مشاعر العملاء 
قبل أن يبدءوا التصويت بأموالهم. ويمكننا تنفيذ دراسات مسحية لرضا العملاءء سائلين العملاء ما 
ب PM LL ME QULA‏ 


p TE eus ا‎ due de 


S,‏ طويلا. ومع ذلك؛ as ji‏ لحسن Ball‏ س أساليب إحصائية تمكن من الحصول على نتائج 
دة يما فيه Ge Ms ga A‏ الام (Ses call oh Aly, Cheat‏ أن كو BN‏ اا أكثر 
دقة من إشراك جميع العملاء. ولا حاجة بنا لقول إنه يلزم وجود عناية كبيرة في هذه العملية؛ فمن 
الضروري أن نكون حَذرين من بناء استنتاجات على Aue‏ مشوهة؛ فربما ستكون النتائج غير 
مُجدِية في وصف كيفية تصرف العملاع Le gee‏ إذا Cu yal‏ المقابلات مع أولئك is ca‏ ميال 
كبيرة من المال فحسب. وذ ans peep ere‏ الإحصائية التي تمكُننا من fie Gilad‏ هذه 
الأخطاء؛ ؛ ومن ثم استخلاص استنتاجات صحيحة. 


مثال :٦‏ كشف الاحتيال ببطاقات الائتمان 


ليست كل معاملات بظاقات: due ph SLAY)‏ “والمعامئلات الاحتيالية تكلف cll‏ أموالا وكذلك 
تكلف عملاء البنك أموالا؛ ومن ثم فإن كشف الاحتيال Ags Sal Ania y‏ للغاية. ربما مر العديد من 
قر اء هذا الكتاب بتجربة تلقي اتصال هاتفي من المصرف للتأكد من أنهم قاموا ببعض المعاملات. 
تستند هذه المكالمات الهاتفية على توقعات تقدمها نماذج إحصائية تحدد مدى شرعية تصرفات 
العملاء . والخروج عن السلوك الذي Gin‏ به هذه النماذج يشير إلى أن شب شيئا مريبًا يجري ويستحق 
التحقق منه. 


توجد أنواع عديدة من النماذج» يعتمد بعضها ببساطة على أنماط السلوك المثيرة للشكوك في 
جوهرها؛ مثل الاستخدام المتزامن لبطاقة واحدة في مكانين بعيدين جغر Ga)‏ ويسدند البعض AYI‏ 
على نماذج أكثر تفصيلا لأنواع المعاملات الذي يقوم بها الشخص عادة» ومتى يميل إلى القيام cles‏ 
وكمية المال المستخدم» وفي أي أنواع المنافذء ولأي أنواع المنتجات» وما شابه ذلك. 


بطبيعة الحال» Y‏ يوجد نموذج cet‏ كامل؛ فغاليًا ما د toss‏ أنماط معاملات بطاقة الائتمان؛ حيث 


إن [ll‏ فد fad‏ ون sled‏ منتحات :لم At‏ وها من قل عاد ة على ذلك» نسبة ضئيلة فحسب من 
المعاملات تكون MEN EA ee ee‏ ا الصعوبة. 


VET أساليب‎ 3 den core Ais; على‎ ee? اختاروه‎ " eee عن‎ pe 
للاحتيال؛ ومن ثم فإن ذلك يتطلب تطوير المزيد من النماذج الإحصائية.‎ 


مثال cV‏ التضخم 


إننا جميعًا نألف فكرة أن الأشياء تزداد SDE‏ بمرور الوقت. ولكن كيف يمكننا مقارنة تكاليف 
المعيشة اليوم بتكاليف المعيشة أمس؟ للقيام بذلك» نحتاج إلى مقارنة الأشياء نفسها التي اشتريناها 
في اليومين. لكن للأسف» توجد تعقيدات؛ فالمحلات التجارية المختلفة تحدد أسعارًا مختلفة للأشياء 
نفسهاء والأشخاص المختلفون يشترون أشياء مختلفة» ويغير الأشخاص أنفسهم أنماط شرائهم» 


التغييرات في الاعتبار عند تحديد ما إذا كانت الحياة أكثر تكلفة هذه الأيام GY al‏ 


Cui‏ الإحصائيون والاقتصاديون مؤشرات مثل «مؤشر أسعار التجزئة» و«مؤشر أسعار 
المستهلك» لقياس تكاليف المعيشة. وتستند هذه المؤشرات إلى «سلة» افتراضية للسلع (مئات 
منها) التي يشتريها الناس» إضافة إلى دراسات استقصائية لاكتشاف الأسعار التي يُباع بها كل 
عنصر في السلة. وتستخدم نماذج إحصائية متطورة لجمع أسعار العناصر المختلفة لتقدم رقمًا 
إجماليًا واحدا يمكن مقارنته على مدار الزمن. وبالإضافة إلى كونها مؤشرًا على التضخم» تستخدم 
هذه المؤشرات hual Lj‏ حدود clic)‏ الضريبى والرواتب المرتبطة بالمؤشر والمعاشات 
التقاعدية» وما إلى ذلك. : 


خاتمة 


رغم أن هذا قد لا يبدو واضحًا Laila‏ للعين غير الخبيرةء فإن ale‏ الإحصاء والأساليب الإحصائية 
يَكمُنان في قلب الاكتشاف العلمي» والعمليات التجارية Aye Sally‏ والسياسة الاجتماعيةء 
والتصنيع» والطب» ومعظم جوانب النشاط الإنساني الأخرى. علاوة على ذلكء كلما تقدم callall‏ 
زادت أهمية هذا الدور أكثر وأكثر؛ على سبيل المثال» Ma‏ وقت طويل وتطويرٌ أدوية جديدة 
يشترطء cli lli‏ مشاركة الإحصائيين» وشيء من هذا القبيل يحدث الآن في الصناعة المصرفية؛ 
حيث إن الاتفاقات الدولية الجديدة تتطلب وضع نماذج إحصائية للمخاطر. ونظرًا لهذا الدور 
المحوري» من المهم بوضوح أن يكون أي مُواطن مستنير على ele‏ بالمبادئ الإحصاتية الأساسية. 


Sica لدو اين الت‎ Sip ge الذي مف الروت‎ aa dias غ‎ ts 
استقصًؤا‎ M قام بها المستكشفون قبل القرن العشرين؛‎ (Ul برحلات استكشاف مشابهة لتلك‎ 
الإحصاء الحقيقي يتمحور حول استكشاف‎ ale جديدة ومثيرة. وهذا الإدراك س أن‎ all se ودرسوا‎ 
في تقدير قيمة هذا العلم الحديث.‎ Gola) — Alas المجهول» ولا يتمحور حول عمليات حسابية‎ 


البيانات أدلة الطبيعة : 


مقدمة 


أهدف في هذا الفصل إلى تقديم بعض المفاهيم والأدوات الأساسية التي تشكل أساس ale‏ الإحصاءء 
والتي تمكنه من لعب أدوار كثيرة. 


أشرث في الفصل الأول إلى ale CJ‏ الإحصاء الحديث عاتى من كثير من المفاهيم الخاطئة وسوء 
agil‏ ومع ذلك» يروج سوء فهم آخَّر في كثير من الأحيان (ربما عن غير قصد) عن طريق الكتب 
التي تشرح الأساليب الإحصائية للخبراء في تخصصات أخرى؛ وهو أن الإحصاء عبارة عن 
حقيبة من الأدوات» ويتمثل دور الإحصائي أو مستخدم الإحصاء في اختيار أداة واحدة تتناسب مع 
(Ja‏ مشكلة هذه النظرة ¡ للإحصاء à‏ في أنها تعطي انطباعًا Ob‏ مجال الإحصاء ببساطة 4 عبارة عن 
مجموعة من الطرق المنفصلة لمعالجة الأرقام؛ فهي تفشل في نقل حقيقة أن الإحصاءَ JS‏ متصلء 
مبني على مبادئ فلسفية عميقة» بحيث تكون أدوات تحليل البيانات مرتبطة ومتصلة؛ فبعضها قد 
يبدو شاملا مقارنة بغيره» وربما يبدو البعض الآخر hia‏ ببساطة لأنه يتعامل مع أنواع مختلفة 
من البيانات» على الرغم من أن هذه الأدوات تبحث عن النوع نفسه من البتى» وما إلى ذلك. وأظن 
أن انطباع مجموعة الطرق المعزولة هذا ربما يكون Gua‏ آخر يدفع المستجدّين في مجال الإحصاء 
إلى الاعتقاد بأن هذا المجال ممل LE gi‏ ما وصعب التعلم (بصرف النظر عن أي خوف من الأرقام 
قد يكون لديهم)؛ فتعلم مجموعة من الطرق المنفصلة التي تبدو شديدة التباين أصعب بكثير من تعلم 
هذه الطرق من خلال اشتقاقها من المبادئ الأساسية نفسها. الأمر يشبه في صعوبته تعلم مجموعة 
عشوائية من الكلمات غير ALG yall‏ مقارنة بتعلم GLAS‏ جملة ذات معتّى. ail j‏ سعيث ‏ في هذا 
الفصل وعلى مدار الكتاب - للتعبير عن العلاقات بين الأفكار الإحصائية» من أجل إيضاح أن 
مجال الإحصاء في الحقيقة وحدة متكاملة مترابطة. 


)1( البيانات مرة أخرى 


ele فإن‎ cal الإحصاءء وبغضٌ النظر عن تفاصيل التعريف الذي نعتمده‎ ale كان ما يفعله‎ Ul 
الإحصاء يبدأ بالبيانات. تصف البيانات الكون الذي نرغب في دراسته» وأستخدم كلمة «الكون»‎ 
alle هنا بمعنّى عام واسع؛ فيمكن أن يكون العالم المادي الذي يدور حولناء ويمكن أيضًا أن يكون‎ 
المدارس‎ alle الوراثةء أو‎ ale تجارب المصفوفات الدقيقة في‎ alle معاملات بطاقات الائتمان» أو‎ 
التجارة بين البلدان» أو عالم كيفية تصرف الأشخاص عند‎ alle والتدريس وأداء الامتحانات» أو‎ 
all gall الجسيمات دون الذريةء وما شابه ذلك. لا توجد نهاية‎ alle التعرض للإعلانات المختلفةء أو‎ 
التي يمكن دراستها؛ ومن ثم لا نهاية للعوالم التي تمثلها البيانات.‎ 

بطبيعة الحال» لا يمكن لمجموعة محدودة من البيانات أن تخبرنا عن كل التعقيدات اللانهائية للعالم 
الحقيقي» تمامًا كما لا يوجد وصفٌ لفظي س حتى إِنْ aS‏ أفصح المؤلفين — يمكن أن ينقل كل 
شيء عن كل جانب من جوانب العالم من حولنا؛ وهذا يعني أننا يجب أن نكون واعين للغاية بأي 
مَوَاطن ضعف أو ثغرات في البيانات لديناء ويعني أنه عند جمع البيانات» نكون بحاجة لإيلاء 
عناية خاصة للتأكد من أنها تغطي بالفعل الجوانب التي نهتم بهاء أو التي نرغب في استخلاص 
نتائج حولها. توجد أيضًا طريقة أكثر إيجابية للنظر إلى هذا الأمر؛ وهي أنه عن طريق جمع 
e paga‏ محدودة من Gail gall‏ الوصفية فحسب»ء فإننا نضطر لإقصاء العناصر غير ذات الصلة؛ 
فعند دراسة سلامة تصميمات السيارات المختلفة» ربما نقرر عدم تسجيل لون القماش الذي يكسو 
المقاعد 


من الملائم عمومًا النظر للبيانات على أن لها (ois‏ يتعلق أحدهما بالكائنات التي نرغب في 
دراستهاء ويتعلق الجانب الآخر بخصائص هذه الكائنات التي نرغب في دراستها؛ على سبيل 
المثال» Lay‏ تتمثل هذه الكائنات في أطفال المدرسة وتتمثل خصائصهم في درجاتهم في الاختبارء 
أو ربما تتمثل الكائنات في الأطفال» ولكننا ندرس نظامهم الغذائي aa gai s‏ البدني» وفي هذه الحالة 
Qu Lay‏ الخصائص في طول الأطفال ووزنهم» أو ربما تكون هذه الكائنات مواد ماديةء LÍ‏ 
الخصائص ذات الأهمية فهي سماتها الكهربائية والمغناطيسية. من الشائع في مجال الإحصاء 
تسمية هذه الخصائص «متغيرات»» بحيث يمتلك كل كائن منها «قيمة» للمتغير (درجة الطفل في 
اختبار الإملاء تمثل قيمة متغير الاختبارء وكمية التوصيل الكهربي للمادة تمثل قيمة متغير القدرة 
على توصيل التيار» وما إلى ذلك). وفي مجالات تحليل البيانات الأخرى» تستخدم كلمات بديلة في 
بعض الأحيان Ou)‏ «ميزة» أو «سمة» أو «خاصية»)» ولكن عند مناقشة الجوانب التقنيةء 
سألتزم عادة بكلمة «متغير». 


في الواقع» في أي دراسةء ربما نكون مهتمين بأنواع متعددة من الكائنات. فربما لا نرغب في الفهم 
وتقديم النتائج عن أطفال المدارس فحسب» ولكن أيضًا عن المدارس نفسها وربما عن المعلمين 
وأساليب التدريس والأنواع المختلفة لهياكل الإدارة المدرسيةء كل ذلك في دراسة واحدة. علاوة 
على ذلك» bale‏ لن نكون مهتمين بسمة واحدة للكائنات التي تخضع Aud pall‏ وإنما بالعلاقات بين 
السمات» وربما بالفعل بالعلاقات بين Glas‏ الكائنات من الأنواع المختلفة وعلى المستويات 


المختلفة. LS,‏ هو متوقع» نجد أن الأمور غالبًا ما تكون معقدة للغاية؛ Fi‏ لتعقيد الموضوعات 
التي ندرسها 


يقاوم كثير من الناس فكرة أنه يمكن للبيانات الرقمية أن تنقل جمال العالم الحقيقي؛ فيشعرون بأن 
تحويل الاشياء إلى أرقام يزيل بطريقة أو باخرى ke‏ سحرها. في الواقع» هم مخطئون حتى 
النخاع؛ فالأرقام لديها القدرة على السماح لنا بإدراك هذا الجمال — هذا السحر س على نحو OS)‏ 
وضوحًا وأكثر عمقاء وتقديره Ga‏ قذره. وباعتر اف الجميع» ؛ ربما يزال «الغموض» عن طريق 
وصف الأشياء بصورة رقمية؛ فإذا قلت إنه يوجد أربعة أشخاص i‏ فى الغرفة» dà‏ تعرف بالضبط 
ما أعنيه» في حين أنني إذا Cal‏ إن شخصًا ما جذاب» ربما لا تكون متأكدًا تمامًا Úa‏ أعنيه. وربما 
تختلف حتى مع وجهة نظري في أن ثمة شخصًا جذابًا في الغرفة» ولكن من غير المرجّح أن 
T.‏ اجا جو عرد و d‏ وا 
Guia‏ أو" aor Pet c bo aui c sb Aa phy Aa cal gh anl‏ اله 2b‏ 
سوء الفهم — Baia‏ عندما نحاول أن tink agii‏ عندما نحاول فهمه تمامًا. 


ويرتبط افتقاد الغموض هذا في تفسير الأرقام ارتباطًا Edy‏ بحقيقة أن «الأرقام تمتلك سمة واحدة 
فقط»؛ ونعني بهذا قيمتها أو حجمها. فعلى النقيض مما قد يدفعنا العرافون إلى الإيمان بهء فإن 
old jl‏ ايك Ads‏ للك 3d‏ أو السيئ؛ Aus‏ كما أن الأرقام لا تمتلك Úa‏ أو نكهة أو رائحة» 
فليس لديها سمات غير قيمتها الرقمية الذاتية. (لا يمكن إنكار أن بعض الأشخاص يمتلكون «الحس 
المرافق»» والذي فيه بريطون لونًا معيتا أو إحساسًا بأرقام معينة. ومع ذلك» فإن الأحاسيس 
المرتبطة تتباين باختلاف الأشخاصء ولا يمكن اعتبارها سمات خاصة بالأرقام نفسها.) 


تقدّم البيانات Ss a)‏ التي ندرسها أكثر مما تقدّمه الكلمات؛ لأن 
البيانات الرقمية د تنتج عادة عن طريق أدوات قياس تتصل اتصالا مباشرًا بتلك الظواهر بدرجة 
أكبر من اتصالها A‏ فالأرقام تأتي مباشرة من الأشياء التي تجري دراستهاء في حين أن 
الكلمات تخضع للترشيح عن طريق العقل البشري. بطبيعة الحال» فإن الأشياء تكون أكثر تعقيدًا إذا 
Ges‏ إجراءات جمع البيانات بواسطة الكلمات LS)‏ هي الحال إذا جُمِعت البيانات عن طريق 
الاستبيانات)» ولكن لا يزال المبدأ صالحًا. وبينما قد لا تكون أدوات القياس مثالية» فإن البيانات 
تكون تمثيلا حقيقيًا لنتائج تطبيق تلك الأدوات على الظاهرة قيد الدراسة. وأحيانًا ألخص ذلك من 
خلال التعليق الموجود في بداية هذا الفصل: «البيانات هي أدلة الطبيعة» التي ترى من خلال 
عدسة أداة القياس. » 


وفوق كل هذاء للأرقام نتائج عملية من حيث التقدم المجتمعي؛ فقدرة العالم المتحضّر على معالجة 
تمثيلات الواقع التي تقدّمها الأرقام هي التي أدت إلى مثل هذا التقدم المادي المذهل في القرون 
القليلة الماضية. 


على الرغم من أن الأرقام لها سمة واحدة فقط ‏ قيمتها الرقمية س فربما نختار استخدام تلك 
السمة بطرق مختلفة؛ على سبيل المثال» عند اتخاذ قرار بشأن جدارة الطلاب في الصف (qd all‏ 
ربما نصتفهم وفقا لدرجات الامتحان؛ أي إننا Lay‏ لا نهتمٌ إلا بما إذا كانت نتيجة ما أعلى من 
أخرىء ولا نهتمٌ بالفارق العددي الدقيق. وعندما نهتم فقط «بترتيب» القَيّم بهذه الطريقة نقول إننا 
نعالج البيانات بوضعها على مقياس «ترتيبي». من ناحية أخرىء عندما يقيس المزارع كمية الذرة 
التي أنتجهاء فلا يريد ببساطة معرفة ما إذا كان قد أنتج أكثر مما أنتج في العام الماضي أم لاء كما 
أنه يريد أيضًا أن يعرف مقدار ما أنتجه؛ أي الوزن الفعلي؛ فعلى أي حال» سوف تباع الذرة في 
السوق على هذا الأساس. في هذه الحالة» يُقارن المزارع Gli‏ وزن الذرة التي أنتجها بوزن 
معياري مثل الطن» حتى يستطيع معرفة كم Lib‏ من الذرة أنتجه. يتضمن ذلك احتساب نسبة وزن 
الذرة التي أنتجها المزارع لوزن الطن الواحد من الذرة؛ لهذا السبب» عندما نستخدم pill‏ على هذا 
c gaill‏ فإننا نقول إننا نعالج البيانات بوضعها على مقياس «(نسبي » . Lay‏ أنه في هذه الحالة يمكننا 
اختيار تغيير وحدة القياس الأساسية؛ إذ يمكننا حساب الوزن بالرطل أو الكيلوجرام بدلا من الطن. 
وما دمنا نشير إلى الوحدة التي استخدمناهاء فإنه من السهل على أي شخص آخر إعادة تحويلها 
مرة أخرىء أو تحويلها إلى أي وحدة يستخدمها Bale‏ 


في حالة أخرىء ربما نرغب في معرفة aac‏ المرضى الذين lile‏ من أثر جانبي معين el gal‏ ما 
وإذا كان العدد كبيرًا بما فيه الكفاية فإننا قد نرغب فى ol gall GAG‏ من السوق على أساس أنه 
ينطوي على مخاطرة كبيرة للغاية. في هذه الحالة» فإننا ببساطة تنُحصي الوحدات المنفصلة 
الواضحة REN‏ (المرضى). لن تكون إعادة القياس عن طريق تغيير الوحدات ذات مغزّى (فلن 
نفكر في إحصاء atc‏ «نصف المرضى»!) GUA‏ نقول إننا zli‏ البيانات بوضعها في المقياس 
«المطلق». 


(Y)‏ الملخّصات الإحصائية البسيطة 


في حين أن الأرقام البسيطة تشكل «عناصر» البيانات» فإنه من أجل أن تكون مفيدة» فإننا نحتاج 
إلى Qj‏ ننظر في العلاقات بينهاء وربما goad‏ بينها بطريقة cle‏ وهنا يأتي دور الإحصاء. سوف 
تستكشف الفصول اللاحقة طرقا أكثر Jaded‏ لمقارنة الأرقام والجمع بينهاء ولكن سيكون هذا الفصل 
بمنزلة مقدمة للأفكار. سئلقِي هنا نظرة على بعض أكثر الطرق مباشرة؛ فلن نستكشف العلاقات 
بين المتغيرات المختلفة في هذا الفصلء ولكن ببساطة سنرى المعلومات cells‏ التي يمكن 
استخلاصها من العلاقات بين القِيّم المَقيسة وفق المتغير نفسه؛ على سبيل المثال» ربما نكون قد 
ulia‏ أعمار المتقدّمين للحصول على منصب في الجامعة» أو درجة phu‏ النجوم في عنقود 
cle (sa‏ أو النفقات الشهرية للأسّر في مدينة ماء أو أوزان أبقار في قطيع في وقت إرسالها إلى 
السوق» وما إلى ذلك. وفي كل حالة» Rui‏ قيمة رقمية واحدة لكل «كائن» في مجموعة الكائنات. 


عندما تؤخذ cles‏ يقال إن القيّم الفردية في المجموعة تشكل «توزيعًا» للقِيّم. ونَعَدٌ الملخصات 
الإحصائية سبلا لتمييز هذا التوزيع؛ أي قول ما إذا كانت agi‏ متشابهة جداء وما إذا كانت توجد 
بعض aill‏ الكبيرة أو الصغيرة على نحو استثنائي» وتحديد القيمة «النموذجية» ... إلخ. 


(1-Y)‏ القِيّم المتوسطة 


يتمثل buj‏ أنواع لمجموعة من الأرقام في «القيمة 
المتوسطة». laa al al‏ في ا ا Papen s cicer EN‏ 
والحاجة إلى شيء من هذا القبيل تكون أكثر وضوحًا عندما تكون مجموعة الأرقام كبيرة؛ على 
سبيل المثال» « لنفترض أن لدينا جدولًا يسجّل أعمار كل الأشخاص في مدينة كبيرة؛ Lay‏ يبلغ 
عددهم مليون نسمة. من QR]‏ الأغراض الإدارية والتجارية سيكون من المفيد على نحو واضح 
معرفة متوسط عمر السكان؛ فسوف توجد حاجة لخدمات مختلفة للغاية» وتنشأ فرص مبيعات إذا 
كان متوسط العمر Úle ٠١‏ بدلا من Te‏ وبإمكاننا أن نحاول الحصول على فكرة عن الحجم العام 
للأرقام في الجدول س الأعمار س من خلال النظر إلى كل القَيّم. لكن من الواضح أن هذا سيكون 
a‏ عسيرًا. : وعدا كن كر إلى كل SOR A‏ ثليه واحدة yan cl ee‏ ان 
التي في BSI, di jay là. S dl gina‏ يمكننا استخدام جهاز الكمبيوتر الخاص بنا لمساعدتنا. 


أو :N‏ نحن بحاجة إلى أن نكون واضجين حيال ما تعنيه بكلمة «قيمة (Alou sie‏ بالضبطء oY‏ 
الكلمة لها Pac‏ معانِ. ربما النوع الأكثر استخدامًا من القيمة المتوسطة هو «المتوسط الحسابي»» 
أو «الوسط الحسابي». فإذا استخدم الشخص كلمة «المتوسط» دون أن يوضح تفسيرهاء فإنه ربما 
حينها يكون قاصدًا «المتوسط الحسابي». 


وقبل أن أوضح كيفية حساب المتوسط الحسابيء ESS‏ جدولا آخر يحتوي مليون رقم. لنفترض في 
هذا الجدول الثاني أن جميع الارقام متطابقة بعضها مع بعض؛ اي لنفترض أنها جميعًا لها القيمة 
نفسها. والآن اجمع جميع الارقام في الجدول الأول لإيجاد مجموعها الكلي (هذا لا يستغرق سوى 
جزء من الثانية باستخدام جهاز كمبيوتر). اجمع جميع الأرقام في الجدول الثاني لإيجاد مجموعها 
الكلي. إذا كان مجموعا أرقام الجدولين بالقيمة نفسهاء فإن الرقم الذي تكرر مليون مرة في الجدول 
الثاني يمثل قيمة جوهرية نوعًا ما بالنسبة للأرقام في الجدول الأول. هذا الرقم المفردء والذي 
جمعت منه مليون نسخة لتصل إلى المجموع نفسه كما في الجدول الأول» يسمّى المتوسط الحسابي 
(للأرقام في الجدول الأول). 


في الواقع»ء أسهل GA‏ لحساب المتوسط الحسابي هي من خلال قسمة مجموع الأرقام المليون في 
الجدول الأول على مليون. وعموماء يتم إيجاد المتوسط الحسابي لمجموعة من الأرقام بجمع جميع 
الأرقام وقسمة المجموع على عددها. إليك مثالا آخَر: في اختبار ماء كانت النسبة المئوية لنتائج 
خمسة طلاب في الصف هي: (OY CTY GVA‏ )64 00 يبلغ مجموع هذه الأرقام: ٦۳ + VA‏ + 
Tes = 0044) + oF‏ ويأتي المتوسط الحسابي ببساطة عن طريق قسمة ٠٠١‏ على £0 وهو 


VA المتوسطة‎ 


يمتلك المتوسط الحسابي العديد من الخصائص الجذابة؛ فدائمًا ما يأخذ قيمة بين eil S‏ 
وأصغرها في مجموعة الأرقام. علاوة على cells‏ فإنه يوازن بين الأرقام $ فى المجموعة؛ د بمعنى أن 
مجموع الفروق بين المتوسط الحسابي والقيّم الأكبر منه يساوي بالضبط مجموع الفروق بين 
المتوسط الحسابي والقِيّم الأصغر منه. وبهذا المعنى» هو قيمة «مركزية». والأشخاص الذين 
يملكون تفكيرًا ميكانيكيًا قد يرغبون في تصور مجموعة من SEY!‏ 45 الواحد منها كيلوجرام 
واحد موضوعة في مواقع مختلفة على طول لوح خشبي (عديم الوزن). ومسافات الأوزان من أحد 
ارتكاز يتوازن فيه لوح الخشب تمامًا. 


om a مجر‎ dod كاملا من‎ c m Cy el 
قيمة واحدة. يتبع ذلك أنه يهمل أيضًا معلومات؛ فيّجب ألا نتوقع أن نمثل مليون رقم مختلف (أو‎ 
حي اما و واستجدل طن ستيان‎ casto Sie ge yao es (laste D eas 
فإنه يمكن أن‎ odej ولكنْ نظرًا لأنه قيمة مركزية بالمعنى المُبَيّن‎ Ga هذه التضحية في وقت‎ 
يكون ملخصًا مفيدًا؛ فيمكننا مقارنة متوسطات حجم الفصل في المدارس المختلفة» أو متوسط‎ 
الاس للوصول إلى العمل؛‎ cilia مختلنين؛ أو متوسط الوقت: الذي يستغرقه‎ COLL ial درجة‎ 
أو متوسط درجة الحرارة اليومية في سنوات مختلفة» وما إلى ذلك.‎ 


المتوسط الحسابي إحصائية مهمة؛ فهو ملخص لمجموعة من الأرقام. وثمة ملخص آخر مهم هو 
«الوسيط». كان المتوسط هو القيمة المحورية؛ نوعًا من النقطة المركزية الموازنة لمجموع 
الفروق بينه وبين الأرقام في المجموعة. أما الوسيط فيوازن المجموعة بطريقة أخرى؛ فهو القيمة 
التي يكون نصف الأرقام في مجموعة البيانات أكبر منها والنصف الآخر أصغر منها. وبالعودة 
إلى الصف المكوّن من خمسة طلاب المذكور أعلاه» فإن نتائجهم بالترتيب من الأصغر إلى الأكبر 
هي: (OY‏ دهء (VA C‏ 41 والنتيجة الوسطى هنا هي CY‏ لذلك هذا هو الوسيط. 


من الواضح أنه ستظهر بعض التعقيدات إذا وجدت قيم متساوية في مجموعة البيانات (لنفترض 
على سبيل المثال أنها تتكون من 11 نسخة من القيمة ٠‏ ونسخة واحدة من القيمة (Y‏ ولكن يمكن 
التغلب على ذلك. على أي cle‏ مرة أخرى الوسيط هو dad‏ تمثيلية بمعنّى cle‏ وإن كان يختلف 
عن المتوسط. وبسبب هذا الاختلاف» لنا أن نتوقع أنه سيأخذ قيمة مختلفة عن المتوسط. من 
الواضح أن الوسيط أسهل في الحساب من المتوسط. فليس علينا جمع أي قيم للوصول إليه» فضلا 
عن القسمة على axe‏ القيم 3 في المجموعة؛ كل ما عليك القيام به هو ترتيب الأرقام» وتحديد موقع 
الرقم الموجود في الوسط. ولكن في الواقع هذه الميزة الحسابية أساسًا غير ذات pan ila‏ 
الكمبيوتر € ففي التحليلات الإحصائية الحقيقية يقوم الكمبيوتر بعمليات المعالجة الحسابية المملة. 


بوجود هذين الملخصين الإحصائيين» وكلاهما يقدم Laid‏ تمثيلية» كيف لنا أن نحدد أيهما سنستخدم 
في أي موقف معين؟ بما أنهما يُعرّفان على نحو مختلف ‏ يجمعان القيم الرقمية على نحو 
مختلف س فمن المرجّح أن ينتجا Und‏ مختلفة؛ ولذلك Lay‏ تكون أي استنتاجات تستند Lel‏ 
مختلفة للغاية. والجواب الكامل لمسألة أيهما تختار سوف يدخلنا في أمور فنية تتجاوز مستوى هذا 
الكتاب» ولكن الجواب القصير هو أن الاختيار سيعتمد على التفاصيل الدقيقة للسؤال الذي يرغب 
المرء في الإجابة عنه. 


إليك مثالًا: لنفترض أن شركة صغيرة لديها Quad‏ مجموعات من الموظفين؛ لكل منها درجة 
ومرتب مختلفان؛ وهی على الترتيب: ٠٠٠٠١‏ دولارء ٠٠٠١١‏ دولارء ٠۰۰۰۲‏ دولارء Yee‏ 
Lau gis IY 5 54555. CY C‏ هذه lll‏ بهو 98281 OV‏ في جين أن Laas‏ هر 
٠ه‏ دولار. والآن لنفترض أن الشركة تعتزم توظيف خمسة موظفين $238 aal g‏ لكل درجة. 
ربما يشير صاحب العمل إلى أنه في هذه الحالة» سيُضطر «في المتوسط» لدفع راتب إجمالي 
للقادمين axi]‏ الخمسة كلهم يبلغ ۲۸٠٠١‏ دولار؛ ومن ثم يكون هذا هو متوسط الراتب الذي يذكره 
في الإعلان. لكن Lay‏ يشعر الموظفون أن هذا تحايل؛ GY‏ عدد الموظفين الذين سيُدقع لهم أقل من 
5 دولارات سيساوي arc‏ الموظفين الذين سيُدفع لهم مبلغ أكثر من ۲ دولارات. 
Lary‏ يشغرون أنه من الأكثز صدقا وضع هذا لزق قي الإعلان. أحياتًا يتطلب تحديد أي 
المقياسين هو المناسب تفكير! متأثيًا. (وفي حال كنت ت تعتقد أن هذه الحجة مبتدعة»ء يبيّن شكل ٠-۲‏ 
توزيع رواتب لاعبي البيسبول الأمريكي قبل الإضراب في عام ١1464‏ كان المتوسط الحسابي 
۲ مليون دولارء ولكن كان الوسيط ٠,5‏ مليون دولار.) 


يوضح هذا المثال أيضًا التأثير النسبي للقيّم المتطرّفة على المتوسط والوسيط. في مثال المرتبات 
أعلاه» يساوي المتوسط ما يقرب من ثلاثة أضعاف الوسيط. ولكنْ لنفترض أن أكبر قيمة كانت 
٤‏ دولارات بدلا من 641 دولاراء حينها سيظل الوسيط ٠٠٠١7‏ دولارات (نضف القيم 
أعلاه ونصفها (et‏ إلا أن sill‏ سط سيتقلص إلى ۲ دولارات. إن حجم قيمة واحدة فقط 
يمكن أن يكون له تأثير كبير على Law shall‏ ولكنه لا يؤثر على الوسيط. وحساسية المتوسط تلك 
حيال القِيّم المتطرفة هي أحد الأسباب التي تجعل الوسيط أحيانًا مفضلًا في الاختيار عن المتوسط. 


ليس المتوسط والوسيط الملخّصين الوحيدين للقيم التمثيلية؛ فثمة ملخص آخر مهم هو «المنوال»؛ 
وهو أكثر القيم تكرارًا في العينة؛ على سبيل المثال» لنفترض أنني أحصِي عدد الأطفال في الأسرة 
في مجموعة سكانية معينة. ربما أجد أن بعض الأسّر لديها طفل coals‏ وبعضها لديها طفلان» 
وبعضها ثلاثة» وما إلى ذلك» وربما أجد على وجه الخصوص أن عدد الأسّر التي لديها طفلان 
أكبر من أي قيمة أخرى. في هذه الحالة» سيكون منوال عدد الأطفال لكل أسرة هو اثنين. 


معدل التكرار 


MM للح‎ 
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الرواتب بالمليون دولار‎ 


شكل -Y‏ توزيع رواتب لاعبي البيسبول الأمريكيين في عام 
0415 يبين المحور الافقي الرواتب بالمليون دولارء ويبين المحور 
الرأسي أعداد اللاعبين في كل نطاق من الرواتب. 


(Y-Y)‏ التشتت 


تقدّم المتوسطاث ‏ على غرار المتوسط الحسابي والوسيط س ملخصاتٍ رقمية واحدةٌ 
لمجموعات من القيم الرقمية» وهي مفيدة لأنها يمكن أن تعطي مؤشرًا عن الحجم العام للقيم 
الموجودة في البيانات. ولكلء كما رأينا في المثال السابق» يمكن للقِيّم التلخيصية الواحدة أن تكون 
Alles‏ وعلى وجه التحديد» قد تنحرف qul‏ التلخيصية الواحدة كثيرًا عن القيّم الفردية في 


مجموعة الأرقام. ولتوضيح ذلك» لنفترض أن لدينا مجموعة من مليون رقم وواحدء لها القيم: ٠٠‏ 
c‏ ”ء ٠٠٠٠٠٠١ »... E Y‏ . إن المتوسط والوسيط كليهما لهذه المجموعة من القَيّم يساوي 
٠‏ وولكن من الواضح تمامًا أن هذه القيمة ليست قيمة «تمثيلية» جيدة للمجموعة. فعلى 
طرفي cie ganal‏ ثمة قيمة واحدة أكبر بنصف مليون وقيمة واحدة أصغر بنصف مليون من 


المتوسط (والوسيط). 


إن ما نفتقده عندما نعتمد فقط على المتوسط لتلخيص مجموعة من البيانات هو بعض المؤشرات 
حول مدى انتشار البيانات حول هذا المتوسط؛ هل بعض نقاط البيانات أكبر بكثير من المتوسط؟ 
هل بعضها أصغر منه بكثير؟ أم إنها متجمعة في تقارب حول المتوسط؟ وعمومّاء ما مدى اختلاف 
aiall‏ في مجموعة البيانات بعضها عن بعض؟ تقدم المقاييس الإحصائية للتشتت هذه المعلومات 
بدقة» وكما هي الحال مع المتوسطء يوجد أكثر من مجرد مقياس واحد. 


أبسط مقاييس التشتت هو «المدى»؛ والذي يُعرّف بأنه الفرق بين أكبر وأصغر القيم في مجموعة 
البيانات. في مجموعة بياناتنا المكونة من مليون رقم وواحد» المدى هو : a‏ 
٠٠٠٠٠‏ وفي مثال الرواتب الخمسة»ء المدى هو: 99994 - Quas AVIVA = ٠٠٠٠١‏ 
هذان المثالان س اللذان يمتلكان مدّى كبيرًا س أنه يوجد اختلاف كبير عن المتوسط؛ على سبيل 
المثال» إذا كان Urt VE gall‏ رواتب تبلغ 6848 دولاراء ۲۸۰۰۰ دولارء ۲۸۰۰۱ 
دولار» YAY‏ دولار» YA. Y‏ دولارات» فان المتوسط سيكون يسا YAee)‏ دولار»› Ol,‏ 
سيكون المدى > دولارات فقط. هذا يرسم صورة مختلفة lóa‏ تخبرنا أن الموظفين مع هذه الرواتب 
الجديدة سيتقاصّؤن الأجر نفسه تقريبًا. أما المدى الكبير من (Jal‏ السابق — البالغ ۸۹۹۹٩‏ 
دولارًَا س فيُخبرنا على الفور أنه توجد اختلافات ضخمة. 

المدى مقياس ملائم للغاية وله العديد من الخصائص الجذابة كمقياس للتشتت» من أهمها بساطته 
وإمكانية تفسيره السهلة. ومع ell‏ من الممكن أن نشعر أنه ليس Glia‏ فهو رغم كل شيء يتجاهل 
معظم البيانات؛ Ge‏ يعتمد فقط على OS)‏ القيم وأصغرها. وللتوضيح» chats‏ مج هين Bá‏ 
البيانات تتألف كل منهما من ألف قيمة. تتضمن إحدى المجموعتين قيمة واحدة تبلغ »٠‏ و118 قيمة 
تبلغ Ora‏ وقيمة واحدة تبلغ tí‏ وتتضمن مجموعة البيانات الأخرى ٠‏ قيمة تبلغ et‏ 
و٠٠٠‏ قيمة تبلغ Vere‏ مدى G‏ مجموعتي البيانات هو ٠٠٠١‏ (وبالمصادفة؛ لكل منهما أيضًا 
متوسط يبلغ + (Or‏ ولكن من الواضح أنهما مختلفتان للغاية في طبيعتهما؛ فبالتركيز فقط على 
أكبر القيم وأصغرهاء فشل المدى في كشف حقيقة أن مجموعة البيانات الأولى تتركز Lille‏ بكثافة 
حول المتوسط. 


يمكن التغلب على هذا القصور باستخدام مقياس للتشتت يضع القيم «كلها» في الاعتبار. 


إحدى الطرق الشائعة للقيام بذلك هي أن تحسب الفروق بين المتوسط (الحسابي) وكل رقم في 
(تربيع الفروق يجعل all‏ جميعها موجبة. فبخلاف ذلك» سوف تلغي الفروق الموجبة والسالبة 


بعضها بعضًا عندما نقوم بحساب المتوسط.) وإذا كان المتوسط الناتج عن الفروق المربعة صغيرًاء 
فإنه يخبرنا في العادة أن الأرقام ليست مختلفة FAS‏ عن متوسطها؛ وهذا يعني أنها ليست مشتتة 
على نطاق واسع. (uen‏ مقياس متوسط الفروق المربعة «تباين» البيانات؛ أو يسمّى في بعض 
التخصصات «متوسط مربعات انحرافات «ull‏ وسنوضح الأمر باستخدام درجات الطلاب 
الخمسة في الاختبار التي كانت AN COP (AY VA‏ 55, وكان متوسطها VA‏ الفارق المربع بين 
النتيجة الأولى والمتوسط هو "(VA - VA)‏ = ١١٠٠ء‏ وهكذا. ومجموع الفروق المربعة هو ٠٠١‏ 
£A = ١11 + ٥۲۹ + YYO + YO +‏ ومن ثم فإن متوسط مربعات انحرافات القيم هو 
Y 4,1 = ٩ + ۸‏ . وهذا هو التباين. 


Lay‏ تعقيد طفيف من Aids‏ أن التباين ينطوي على ad‏ مربعة؛ وهذا يعني أن التباين نفسه يقاس ب 
«وحدات مربعة». فإذا كنا نقيس إنتاجية المزارع من حيث أطنان الذرةء فإن تباين القيم يقاس ب 
«الطن المربع». ليس تأثير هذا الأمر واضحّاء وبسبب هذه الصعوبة؛ من الشائع أن نحسب الجذر 
التربيعي للتباين. وهذا يُعِيد وحدات القياس إلى صورتها الأصلية» ويُنتج مقياسًا للتشتت يُسمّى 
«الانحراف المعياري». وفي المثال السابق» يتمثل الانحراف المعياري لدرجات الطلاب فى 
الاختبار في الجذر التربيعي للعدد TrA, T‏ وهو AEO‏ 1 


يتغلب الانحراف المعياري على المشكلة الذي وجدناها مع المدى؛ فهو يستخدم البيانات كافة. فإذا 


تجمعت معظم نقاط البيانات على نحو وثيق clas lia‏ مع وجود عدد قليل من النقاط AGLI)‏ فسيعني 
ذلك أن الانحراف المعياري صغير. وفي المقابل» إذا كانت نقاط البيانات تتخذ Uu‏ مختلفة للغاية» 


حتى إذا كانت تتخذ cll‏ الأكبر والأصغر نفسهاء فإن الانحراف المعياري سيكون أكبر بكثير. 
(Y-Y)‏ الالتواء 


تخبرنا مقاييس التشتت بمدى انحراف القيم المفردة بعضها عن بعضء ولكنها لا تخبرنا بطريقة 
انحرافها. وبالتحديد لا تخبرنا ما إذا كانت الانحرافات الأكبر تميل إلى أن تكون لدى القيم الكبرى 
أم القيم الصغرى في مجموعة البيانات. SX‏ مثالنا عن موظفي الشركة الخمسةء والذي يحصل فيه 
أربعة موظفين على حوالي ٠٠٠٠١‏ دولار سنويّاء بينما يحصل موظف واحد على حوالي عشرة 
أضعاف ذلك. من شأن أي مقياس للتشتت (الانحراف المعياري على سبيل المثال) أن يخبرنا أن 
القيم مشتتة على نطاق واسع جداء ولكنه لن يُخبرنا أن إحدى القيم أكبر بكثير من القيم الأخرى. 
وبالفعل» فان الانحراف المعياري للقيم الخمسة ۰ دولارء ^333A NY ga AVIVA‏ 
دولارّاء ۸۹۹۹۷ دولارّاء Y‏ دولار؛ هو بالضبط نفسه للقيم الخمسة الأصلية. المختلف هنا هو أن 
القيمة الشاذة (قيمة ١‏ دولار) الآن صغيرة جذا بدلا من كونها كبيرة Jae‏ ولرصد هذا الاختلاف» 
نحتاج إلى إحصائية أخرى لتلخيص البيانات» إحصائية تضع في الاعتبار وتقيس «عدم التناظر » 
في توزيع القيم . يسمّى أحد أنواع عدم التناظر في توزيع القيم «الالتواء». ويعد مثالنا الأصلي 
لرواتب «ui gall‏ الذي يمتلك قيمة واحدة كبيرة على نحو شاذ تبلغ 34434 d^) ss‏ «أيمن 
الالتواء» (أو موجب الالتواء)؛ OY‏ توزيع القيم يمتلك «ذيلا» طويلا يمتد إلى قيمة واحدة كبيرة 


الكبرى. وق المقابل» فإن توزيع mox r‏ سابقاء الذي odi‏ ي E TEE‏ 
يكون «أيسر الالتواء» (أو سالب الالتواء)؛ GY‏ الجزء الأكبر من القيم يتراكم Us‏ ويوجد ذيل 


طويل aas‏ للأسفل نحو القيمة المفردة الصغيرة Np‏ 


التوزيعات الموجبة الالتواء شائعة (15S‏ والمثال الكلاسيكي عليها هو توزيع الثروة» والذي يمتلك 
فيه العديد من الأفراد مبالغ صغيرة فيما يمتلك عدد قليل فحسب من الأفراد مليارات عدة من 


الدولارات Xs.‏ توزيع رواتب لاعبي البيسبول في الشكل ١-١‏ توزيعًا موجب الالتواء بشدة. 


(£-Y)‏ المقاييس التجزيئية 

ogi‏ القيم المتوسطة ومقاييس التشتت ومقاييس الالتواء ملخصات إحصائية إجماليةء فتكثف القيم 
الموجودة في التوزيع إلى أعداد قليلة يسهل التعامل معها. مع ذلك» ربما يكون اهتمامنا مقصورًا 
على el jal‏ فقط من التوزيع؛ على سبيل المثال» ربما نكون مهتمين فحسب بأكبر أو أصغر بضع 
ad‏ في مجموعة البيانات؛ مثلاء ٥ os‏ من القيم. gii‏ بالفعل الوسيط؛ وهو القيمة التي تكون 
موجودة في منتصف البيانات؛ بمعنى أن ٠‏ من القيم أكبر منها LOs g‏ أصغر منها. ويمكن 
تعميم هذه الفكرة؛ فعلى سبيل المثال» exl»‏ الأعلى» من مجموعة من الأرقام هو القيمة التي 
يكون INO‏ (أي الربع) من قيم البيانات أكبر منهاء exl» Lil‏ الأدنى» فهو القيمة التي يعون 
5 من قيم البيانات أصغر منها. 


وبالمُضِيٌ في هذه التجزئة بدرجة أكبر asi‏ أن لدينا «العُشَيْرَ» (الذي يقسم مجموعة البيانات إلى 
أعشار» من ial‏ الأدنى Y sua‏ إلى ube‏ الأعلى) و KS sally‏ (الذي يقسم البيانات إلى شرائح 
مئوية). وهكذا يمكن وصف شخص بأنه حقق نتيجة فوق all‏ الخامس والتسعين؛ وهذا يعني أنه 

فى أعلى ٥‏ من مجموعة النتائج. والمصطلح العام — الذي يتضمن Xl‏ والعُشيْرَ (SA y‏ 
La ub,‏ کارت خاصة ‏ هو «المقاييس التجزيئية». 


الفصل الثالث 
جمع بيانات صالحة 


البيانات الخام مثل البطاطس الخام؛ Sale‏ ما تتطلب تنظيفا قبل الاستخدام. 


رونالد Aj‏ تيستد 


توفر البيانات نافذة على العالم» ولكن من المهم أن تمنحنا رؤية واضحة. إن النافذة التي تُعانِي من 
الخدوش أو التشوهات أو وجود علامات على زجاجها من المرجّح أن تضللنا Jus‏ ما يكمن 
وراءَهاء وينطبق الأمر نفسه على البيانات. فإذا كانت البيانات مشوّهة أو تالفة بطريقة cle‏ يمكن 
بسهولة أن ic LEG‏ استنتاجات خاطئة. وعمومّاء ليست كل البيانات ذات جودة عالية. في «ell gl‏ 
يمكنني أن أتعمق أكثر وأشير إلى أنه من النادر أن تقابل مجموعة من البيانات ليس بها مشاكل في 
الجودة من أي نوع» ربما إلى حد أنك إذا قابلت مجموعة من Jia‏ هذه البيانات «المثالية» فلا بد أن 
تشك فيها. ربما يجب عليك وقتها أن تسأل عن عمليات الإعداد التي خضعت لها مجموعة 
البيانات» والتي تجعلها تبدو مثالية. وسوف نعود إلى مسألة الإعداد لاحقًا. 


تميل التوصيفات القياسية للأفكار والأساليب الإحصائية الموجودة في الكتب إلى افتراض أن 
البيانات ليس بها مشاكل (وهنا يصف خبراء الإحصاء البيانات بأنها «نظيفة»» في مقابل البيانات 
«الملوثة» أو «الفوضوية»). وهذا أمر مفهوم؛ لأن الهدف من هذه الكتب هو وصف الطرق» 
وينتقص من وضوح الوصف قول ما يجب القيام به إذا كانت البيانات ليست كما ينبغي أن تكون. 
ومع ذلكء فإن هذا الكتاب مختلف إلى Sa‏ ما؛ فالهدف هنا ليس تعليم آليات الأساليب الإحصائية» 
وإنما تقديم ونقل نكهة المجال الحقيقي. ومجال الإحصاء الحقيقي ينبغي أن يتعامل مع البيانات 
الملوثة. 

من أجل توسيع مناقشتناء نحتاج إلى فهم ما يمكن أن aged‏ «البيانات الفاسدة»» وكيفية التعرف 
عليهاء وماذا نفعل حيالها. لسوء الحظء البيانات مثل الناس؛ فيمكن أن «تفسد» بعدد غير محدود 


من الطرق المختلفة. ومع ذلك» يمكن تصنيف العديد من هذه الطرق على أنها «ناقصة» أو «غير 
صحيحة». 


)1( البيانات الناقصة 


تعد مجموعة البيانات Due‏ مكتملة )13 كانت بعض الملاحظات غير موجودة» وقد تكون البيانات 
مفقودة على نحو عشوائي لأسباب لا علاقة لها تمامًا بالدراسة؛ على سبيل المثال» ربما أوقع 
كيميائي أنبوب اختبار» أو غاب مريض في التجارب السريرية لكريم البشرة عن موعد المتابعة 
بسبب تأخر الطائرة» أو انتقل شخص من منزله ومن S‏ لم يمكن الاتصال به من أجل استكمال 
استبيان المتابعة. ولكن حقيقة أن عنصر بيانات مفقود يمكن أيضًا أن تقدم معلومات في حد ذاتها؛ 
فعلى سبيل المثال» ربما يرغب الشخص الذي يستكمل استمارة الطلب أو الاستبيان في إخفاء شيءٍ 
ماء وبدلا من GAS‏ الصريح» ربما ببساطة لا يُجيب عن هذا السؤال. أو ربما أن الأشخاص 
المعتنقين لوجهة نظر معينة هم فحسب من يُجيبون على الاستبيان؛ على سبيل المتال» إذا طلب من 
العملاء ملء استمارات تقييم للخدمة التي يتلقؤنهاء فإن الأشخاص الذين يريدون مناقشة أشياء 
بخصوص الخدمة ربما يكونون أكثر ميلا لملء الاستبيان. وإذا لم يدرك ذلك في التحليل» فسوف 
تنتج صورة مشوهة عن آراء العملاء. واستطلاعات الإنترنت L pai Aca xa‏ لهذا النوع من 
العيوب؛ حيث يكتفى Lille‏ بدعوة الناس للإجابة على الاستبيان؛ فلا توجد سيطرة على مدى تمثيل 
المستجيبين للمجموعة الخاضعة للدراسة بأكملهاء أو حتى على احتمالية أن يجيب الأشخاص 
انفسهم عدة مرات. 


توجد أمثلة أخرى كثيرة لهذا النوع من «التحيز في الاختيار »» ويمكن أن تكون خفية إلى de‏ ما؛ 
على سبيل cal‏ من المألوف للمرضى الانسحاب من التجارب السريرية للأدوية. لنفترض أن 
المرضى الذين شفوا أثناء استخدام الدواء لم يعودوا للمقابلة التالية لأنهم شعروا أنها غير ضرورية 
(بما أنهم قد تعافؤا). حينها يمكن المسارعة بالاستنتاج بأن الدواء لم ينجح» GY‏ المرضى 
الحاضرين هم فقط أولئك الذين لا يزالون مصابين بالمرض. 


ظهرت حالة كلاسيكية لهذا النوع من التحيز عندما تنبّأت جريدة «ليتراري دايجست» على نحو 
غير صحيح أن لاندون سيّهزم روزفلت في الانتخابات, الرئاسية في عام ١175‏ في الولايات 
المتحدة بأغلبية ساحقة. لسوء الحظء كانت الاستبيانات قد أرسلت فقط للأشخاص الذين لديهم هاتف 
وسيارة» وفي عام ١1775‏ كان هؤلاء الأشخاص AS)‏ ثراء في المتوسط من إجمالي المجموعة 
الخاضعة للدراسة. فكان الأشخاص الذين أرسلت إليهم الاستبيانات لا يمثلون على نحو صحيح كل 
المجموعة المطلوبة. وكما اتضح, الجزء الأكبر من غيرهم أيّدوا روزفلت. 


ثمة نوع آخر مختلف من حالة الاستنتاجات غير الصحيحة الناشئة عن عدم مراعاة البيانات 
المفقودة» والذي أصبح حالة إحصائية كلاسيكية ثانوية. هذه الحالة هي حالة مكوك الفضاء 
«تشالنجر »» الذي انفجر عند إطلاقه في عام 187١؛‏ مما أسفر عن مقتل جميع من كانوا على 
مثنه. في ALM‏ التي سبقت الإطلاق» عُقد اجتماع لمناقشة ما إذا كان ينبغي المضي oad‏ في 
الإطلاق أم.لا؛ حيث إن توقعات درجة الحرارة في موعد الإطلاق أشارت إلى أنها منخفضة على 
نحو كبير. أنتجت بيانات تبيّن أنه على ما يبدو لا توجد علاقة بين درجة حرارة الهواء والأضرار 
التي لحقت ببعض أربطة الصواريخ المساعدة. ومع ذلك» كانت البيانات غير مكتملة» ولم تشمل 
جميع عمليات الإطلاق التي لم تقع بها «أي» أضرار. كان هذا غير ملائم لأن عمليات الإطلاق 
التي لم تقع فيها أي أضرار أجريت في الغالب في درجات حرارة أعلى. كان الجدول المحتوي 


على البيانات «كافة» سيُظهر علاقة واضحة؛ زيادة احتمالية وقوع الضرر في درجات الحرارة 
الأقل. 


وكمثال أخيرء الأشخاص الذين يتقدمون بطلبات للحصول على قروض مصرفية وبطاقات 
الائتمانء وما LS‏ ذلك» يجري حساب «مجموع النقاط الائتمانية» لهم؛ وهي تلعب دورًا أساسيًا 
في تقدير احتمالية aa je‏ عن السداد. وتستمد هذه التقديرات من النماذج الإحصائية المبنية US)‏ 
هو موضح في الفصل السادس) باستخدام بيانات من العملاء السابقين الذين سددوا ديونهم بالفعل أو 
عجزوا عن السداد. ولكن توجد مشكلة؛ فالعملاء السابقون ليسوا ممثلين لجميع الأشخاص الذين 
تقدموا بطلبات للحصول على قرض. kel dus ee‏ اليد حور OS‏ ست ابم 
مخاطرة مأمونة. فلو كان e Y 5A‏ المتقدمون jae‏ | مخاطرة غير مأمونة في حد ذاتهم وكان من 
المرجح أن يعجزوا عن السدادء ما كانوا TG‏ في المقام الأول؛ ومن ثم لم يكونوا ليدخلوا في 
البيانات. إن أي نموذج إحصائي لا يأخذ بعين الاعتبار هذا التشويه في مجموعة البيانات ida‏ 
المرجّح أن يودي إلى استنتاجات خاطئة. وفي هذه الحالة» يمكن أن يعني هذا انهيار البنك. 


إذا كانث بعض ell‏ فحسب ناقصة لكل سجل (على سبيل المثال بعض الإجابات على الاستبيان)» 
يوجد نهجان أساسيان شائعان للتحليل. يتمثل أحد النهجين ببساطة في نبذ أي سجلات غير مكتملة؛ 
وهذا يتضمن نقطتي ضعف محتملتين خطيرتين؛ أولاهما: أنه يمكن أن يؤدي لتشوهات يسببها 
التحيز في الاختيار من النوع الذي نوقش آنفا؛ فإذا كانت سجلات من نوع معين أكثر عرضة لأن 
الضعف الخطيرة الثانية هي أنه يمكن أن يؤدي إلى انخفاض هائل في حجم مجموعة البيانات 
المتاحة للتحليل؛ على سبيل المثال» لنفترض أن استبيانًا يحتوي على مائة سؤال» من الممكن تمامًا 
ألا cist‏ أي مشارك في الدراسة على «كل» $M gus‏ ومن ثم فإن «جميع» السجالات ستتضمن 
Úi‏ ناقصًا؛ وهذا يعني أن نبذ الردود غير المكتملة من شأنه أن يؤدي إلى نبذ كافة البيانات. 


النهج الشائع الثاني لمعالجة القيم الناقصة هو إدخال قيم بديلة؛ على سبيل المثال» لنفترض أن بند 
العمر ناقص من بعض السجلات» يمكننا حينها استبدال متوسط الأعمار المسجلة بالقيم المفقودة. 
وعلى الرغم من أن هذا ينتج مجموعة بيانات كاملة (سواء أكملها المشاركون في الدراسة أو 
أكملناها نحن)» » فإنه له عيوب أيضًا؛ ففي هذه الحالة نكون قد اختلقنا البيانات في الأساس. 


وجود A cad il‏ أكثر تفصيلا. نحن بحاجة إلى “gli‏ نموذج دن لاحتمالية ان 
البيانات — ربما من النوع الذي يتناوله الفصل السادس س وكذلك للعلاقات الأخرى الموجودة 
داخل البيانات. 


ومن الجدير بالذكر أنه من الضروري قبول حقيقة أنه ليست كل القيم قد IRS‏ ومن الممارسات 
الشائعة استخدام رمز خاص للإشارة إلى أن القيمة ناقصة؛ على سبيل المثال» من الشائع استخدام 


رمز N/A‏ اختصارًا لعبارة Not Available‏ بمعنى «غير متاح»» ولكن في بعض الأحيان يتم 
استخدام رموز رقمية مثل 9944 بالنسبة للعمر. وفي هذه الحالة» الإخفاق في جعل جهاز 
الكمبيوتر يدرك أن ۹ يمثل القيم الناقصة يمكن أن يؤدي إلى نتيجة غير دقيقة إلى as‏ كبير. 
usus Da c as‏ عليه متوسط العمر المقدّر عندما يدخل عدد كبير من القيم 1333 في عملية 
الحساب. 


ally ole gee‏ اها سن أن كرون موا a as e‏ مالي انات الناقضنة» فجميع :طرق 
التعامل معها تتطلب alad)‏ نوع من الافتراضات الإضافية» والحل الأفضل هو تقليل المشكلة أثناء 
مرحلة جمع البيانات. 


(Y)‏ البيانات غير الصحيحة 


البيانات غير المكتملة هي نوع واحد من مشكلات البيانات» ولكن ربما تكون البيانات «غير 
صحيحة» بأي عدد من الطرق ولأي عدد من الأسباب. ويوجد مستويات عالية ومنخفضة لأسباب 
هذه المشكلات. 


أحد الأسباب العالية المستوى يتمثل في صعوبة اتخاذ قرار بشأن التعريفات المناسبة (والمتفق 
Sd (Gale Gale‏ معدل الجريمة — المشار Ad]‏ في الفصل الأول - مثالا على ذلك» 5 363 معدل 
الانتحار مثالا bale AT‏ ما يكون الانتحار نشاطا فرديًا؛ لذلك لا يستطيع أحد A‏ أن يعرف على 
وجه اليقين أنه كان انتحارًا. في أحيان كثيرة dl‏ رسالة انتحار ولكن ليس في جميع الحالات؛ 
ومن ثم يجب استخلاص دليل على أن الوفاة كانت في الحقيقة انتحارًا. وهذا ينقلنا إلى نطاق 
غامض؛ aay‏ يُثير مسألة الأدلة ذات الصلةء وعدد الأدلة المطلوبة. علاوة على ذلكء يعمد العديد 

من المنتحرين إلى إخفاء حقيقة انتحارهم؛ لكي تستطيع الأسرة الحصول على أموال التأمين على 
الحياة مثلا. 


في موضع مختلف — أكثر تعقيدًا س تتولى الوكالة الوطنية لسلامة المرضى في المملكة المتحدة 
Anl gia‏ .وضع التقارين. خول الحوادث: التي تفع في ,المستتفيات :ثم تحاول. AUS SN‏ يقد 'ذلك 
تصنيفها لتحديد القواسم المشتركةء لكي يمكن اتخاذ الخطوات اللازمة ial‏ وقوع الحوادث في 
المستقبل. وتكمن الصعوبة في أن Cad all‏ توصف عن طريق عدة آلاف من الأشخاص 
المختلفين» وتوصف بطرق مختلفة. وحتى الحادث نفسه يمكن وصفه بأكثر من نحو مختلف Jia‏ 


على مستوّى أدنى» غالبا ما تقع أخطاء في قراءة المقاييس أو ت تسجيل fel]‏ على سبيل المثال» 


يوجد ola‏ كاك فى كراد Osillial‏ 5^3 اتقريب بلا وعي إلى ارب عدد صحيع» فتوزيعات 


LEO cb yeaah مق الزنيق مق القيم‎ Ibo. iV. cle NE CNN ake 


أو VY‏ وعند أقصى 0S‏ يمكن أن تصله أخطاء التسجيل» يمكن أن تعكس الأرقام Yar VA)‏ من 
(AY‏ أو يمكن الخلط بين الرقم ۷ المكتوب بخط اليد مع الرقم ١‏ (وهذا أقل احتمالا في أوروبا؛ 
حيث إن Y‏ يكتب (Y‏ أو قد توضع البيانات في العمود الخطأ في النموذج» وبهذا تتضاعف القيم 
مصادفة بمقدار عشرة أضعاف» أو ربما يحدث خلط بين النمط الأمريكي لكتابة التاريخ (شهر lesd‏ 
سنة) ونمط المملكة المتحدة (يوم/شهر/سنة)» أو العكس» وما شابه ذلك. في عام ٩۱۷۹ء Ih‏ 
الفلكي الملكي نيفيل ماسكيلين مساعده ديفيد كينبروك على أساس أن مشاهدات الأخير للأوقات 
التي jns‏ فيها نجم مختار لخط الزوال عن طريق أحد التلسكوبات في جرينتش لم تكن دقيقة جذا. 
كان هذا الأمر GY Lage‏ دقة الساعة في جرينتش تتوقف على القياسات الدقيقة لأوقات العبورء 
وتقديرات خطوط الطول لدى سفن الدولة تعتمد على الساعةء والإمبراطورية البريطانية تعتمد 
على سفنها. ومع ذلكء فسّر الباحثون بعد ذلك أسباب عدم الدقة هذه في ضوء ÁD‏ رد الفعل 
النفسي وظاهرة التقريب اللاواعي المذكورة أعلاه. وكمثال أخير من بين كثير من الأمثلة التي كان 
يمكن أن أختارهاء أشار تعداد الولايات المتحدة لعام ۱۹۷۰ إلى وجود ۲۸۹ فتاة رُمّلت وطلقت في 
البيانات» زاد عدد المشاركين في تجميعهاء وكلما زادت المراحل المشاركة في معالجتهاء زاد 
ule. G3 EAA‏ أخطاء. i‏ 


كثيرًا ما تنشأ أمثلة أخرى لأخطاء البيانات من المستوى الأدنى من وحدات القياس» مثل تسجيل 
الطول بالمتر بدلا من caill‏ أو الوزن بالرطل بدلا من الكيلوجرام. في عام 1444( فقد «مسبار 
مناخ المريخ» عندما فشل في دخول الغلاف الجوي للمريخ بالزاوية الصحيحة بسبب الخلط بين 
قياسات الضغط بوحدتي الرطل والنيوتن. وفي مثال AL‏ للخلط بين وحدات القياس — وهذه المرة 
في سياق طبي س كاتنت مستويات الكالسيوم في aal‏ عند سيدة مسِنّة Sale‏ مستوياتِ عادية» في 
نطاق AST‏ حتى C3, ١‏ لكن SH‏ فجأة أنها انخفضت إلى قيمة أقل من ذلك بكثير تبلغ ۸ E.‏ كانت 
الممرضة المسئولة على وشك أن تبدأ في حقنها بالكالسيوم عندما اكتشف الدكتور سلفاتوري 
بينفينجا أن الانخفاض الظاهري كان ببساطة بسبب أن المختبر غير وحدات القياس التي كان 
يستخدمها في تقديم تقارير النتائج (من مليجرام لكل ديسيلتر (عُشر اللتر) إلى ملي مكافئ لكل 
لتر). 


(Y)‏ انتشار الخطأ 


VS oos‏ کت Li ode Cd yo um Sad Leld POUR‏ ع ن ,اقا ت 
عجز الميزانية وتسريح العمال المحتمل في شمال غرب ولاية إنديانا في You ale‏ إلى تأثير 
lae‏ في رقم واحد فقط شق طريقة etl ue‏ فاحد المنازل كانت قيمته ۰ دولار لکن 
تغيرت قيمته عن طريق الخطأ إلى ٠‏ مليون دولار. وللأسفء استخدمت هذه القيمة الخاطئة في 
حساب المعدلات الضريبية. 


وفي حالة أخرىء ذكر عدد صحيفة «تايمز» بتاريخ Y‏ ديسمبر ٠٠١5‏ كيف أن ٠‏ شركة 
من حوالي ثثءء/ا١‏ شركة أزيلت عن طريق الخطأ من قائمة مستخدمة لتجميع النقديرات 
الرسمية لناتج البناء في المملكة المتحدة؛ وأدى ذلك إلى انخفاض نمو البناء في الربع الأول بنسبة 
Y,‏ بدلا من القيمة الصحيحة التى تقضى بارتفاعه بنسبة 0 6% Gh A,‏ على ذلك أنه فى 
الربع الثاني 375 أن نسبة النمو تبلغ ,76 بدلا من النسبة الفعلية البالغة ١,؟7.‏ | 


)£( الإعداد 


كما يجب أن يكون واضحًا من الأمثلة السابقة» فإن عنصرًا أساسيًا أوليًا في أي تحليل إحصائي 
يتمثل في الفحص الدقيق للبيانات والتحقق من وجود الأخطاء وتصحيحها D]‏ أمكن. وفي بعض 
السياقات» يمكن أن تستغرق هذه المرحلة الأولية وقتا أطول من مراحل التحليل اللاحقة. 


ثمة مفهوم رئيسي في تنظيف البيانات هو «القيمة الشاذة». والقيمة الشاذة هي قيمة تختلف كثيرًا 
عن القيم الأخرىء أو Lee‏ هو متوقع» وتكون خارجة عن ذيل التوزيع. وأحيانًا تحذث هذه القيم 
المتطرفة Jei‏ المصادفة؛ فعلى سبيل «Shall‏ على الرغم من أن معظم حالات الطقس تكون معتدلة 
إلى a.‏ ماء فإن العواصف الشديدة تحدث بالفعل في بعض الأحيان. ولكن في حالات أخرى ينشأ 
الشذوذ بسبب أنواع الأخطاء الموضحة سابقاء مثل مقياس شدة الريح الذي يشير ظاهريًا إلى 
عاصفة ضخمة مفاجئة من الرياح في كل منتصف ليل» تزامنًا مع الوقت نفسه الذي يعيد فيه تلقائيًا 
معايرة نفسه؛ لذلك يعد البحث عن القيم الشاذة استراتيجية عامة جيدة للكشف عن الأخطاء في 
البيانات» والتي يمكن بعد ذلك التحقق منها عن طريق شخص ما. وربما تكون هذه القيم Led‏ شاذة 
خاصة بمتغيرات مفردة (مثل الرجل البالغ من العمر ٠‏ سنوات)» أو متغيرات متعددة» ليس ČÍ‏ 
منها قيمة شاذة في حد ذاته (Jua)‏ الفتاة البالغة من العمر © سنوات ولديها T‏ أطفال). 


وبطبيعة الحال» كشف القيمة الشاذة ليس حلا شاملا للكشف عن الأخطاء في البيانات؛ فرغم كل 
شيء» يمكن الوقوع في أخطاء تؤدي إلى ad‏ تظهر طبيعية تمامًا. فربما eo‏ جنس شخص ما عن 
طريق الخطأ على أنه أنثى بدلا من كونه ذكرًا. وأفضل حل هو تبثي ممارسات إدخال بيانات تقلل 
من عدد من الأخطاء. وسنتناول هذا yI‏ مر بالتفصيل في JG e ja‏ 


إذا اكثشف خطأ واضح» تواجهنا مشكلة ما يجب القيام به حياله. يمكن أن نحذف القيمة» معتبرين 
ا dieses‏ اكد أحد إجراءات القيم الناقصة المذكورة سابقا. وأحيانًا يمكننا 
وضع تخمين ذكي لما كان بذ ينبغى أن تكون عليه هذه القيمة؛ على سبيل المثال» لنفترض أنه خلال 
تحن أعما محم ع قرع ف > حصل الشخص على سلسلة القیم VA‏ ۱۹ء OV‏ ۲۱ء Y‏ 
VY GVA 18.5٠6١ ۹‏ وبدراسة هذه القيم» ربما نعتقد أنه من المرجح أن 7١١ Aa‏ قد 
دخلت فى العمود الخطأء وأنه ينبغى أن تكون .١١‏ وبالمناسبة» Lay‏ عبارة «تخمين ذكى» 
المستخدمة أعلاه. فكما هي الحال مع كل تحليلات البيانات الإحصائيةء فإن التفكير المتأني أمر 


بالغ الأهمية. فليس الأمر مجرد مسألة اختيار طريقة إحصائية معينة وترك الكمبيوتر ليقوم بالعمل؛ 
فالكمبيوتر لا يقوم إلا بالعمليات الحسابية وحسب. 


كان مثال أعمار الطلاب في الفقرة السابقة صغيرًا للغاية؛ إذ كان يحتوي فحسب على عشرة أرقام؛ 
لذلك كان من السهل النظر فيها وتحديد القيمة الشاذة» ووضع تخمين ذكي حول ما ينبغي أن تكون 
عليه هذه القيمة. ولكننا نواجه على نحو متزايد مجموعات بيانات أكبر وأكبر. إن مجموعات 
البيانات المكونة من عدة مليارات من القيم شائعة في الوقت الحاضر في التطبيقات العلمية (مثل 
تجارب الجسيمات)» والتطبيقات التجارية (مثل الاتصالات)» وغيرها من المجالات GAT‏ 
Dg‏ نامكرت tabs Sata‏ کات كل القيم يدويًاء ويكون علينا أن نعتمد على الكمبيوتر. 
5b‏ الإحصائيون Glel pal‏ آلية للكشف عن القيم الشاذة» ولكنها لا تحل المشكلة تمامًا. ربما تلفت 
الإجراءات الآلية الانتباه نحو أنواع معينة من القيم الغريبة» ولكنها ستتجاهل سمات الغرابة التي لم 
کو ase‏ ثم هناك مسألة ما يجب القيام به حيال الشذوذ الظاهري الذي ARAS‏ الكمبيوتر . لا بأس 
في هذا إذا كان G8 j‏ واحدا من هذه المليار رقم هو الذي كان موضع شكء ولكن ماذا لو كان dale‏ 
call‏ رقم في موضع شك؟ مرة cic Si‏ الفحص والتصحيح عن طريق دمن صن ue‏ 
SS‏ ا ones)‏ اخرى ae aaa‏ كا نيفص من 

OE TIR een TT CEES 
م‎ E n duc E اي‎ 
الحصول على بيانات ذات جودة عالية من البداية.‎ 


طورت العديد من الاستراتيجيات لتجنب الأخطاء في البيانات في المقام الأول» وهي تتنوع وفقا 
لمجال التطبيق وطريقة جمع البيانات؛ على سبيل c all‏ عندما تنسخ بيانات التجارب السريرية 
من استمارات سجل الحالة المكتوبة باليدء يوجد احتمال حدوث أخطاء في مرحلة النسخ. وتقلل هذه 
الأخطاء عن طريق ترتيب تكرار إدخال البيانات مرتين عن طريق شخصين مختلفين يعملان على 
نحو مستقل» ثم التحقق من وجود أي اختلافات. عند التقدم للحصول على قرضء فإن بيانات 
الطلب (مثل العمر والدخل والديون الأخرىء وما إلى ذلك) يمكن إدخالها مباشرة إلى جهاز 
الكمبيوترء ويمكن لبرامج الكمبيوتر التفاعلية التحقق من الأجوبة بينما يتم إدخالها (على سبيل 
المثال؛ إذا كان الشخص مالكا لمنزل» فهل تشمل ديونه الرهن العقاري؟) وعمومّاء يجب تصميم 
الاستمارات على نحو يقلل الأخطاء؛ فلا ينبغي أن تكون معقدة على نحو مفرط» ويجب أن تكون 
جميع الأسئلة واضحة. ومن الواضح أنه من الأفكار الجيدة إجراء دراسة مسحية تجريبية صغيرة 
للتعرف على أية مشكلات في عملية جمع البيانات قبل الانتقال للتنفيذ الفعلي. 


وبالمناسبة» تعد عبارة «خطأ حاسوبي» عبارة مألوفة» ويعد الكمبيوتر كبش فداء شائع عندما 
تحدث أخطاء في البيانات. ولكن الكمبيوتر يفعل فحسب ما يقال cal‏ مستخدمًا البيانات المُقدّمّة له. 
وعندما تحدث الأخطاءء فليس هذا صنيعة يد الكمبيوتر. 


)0( البيانات الرصدية في مقابل البيانات التجريبية 


Lille‏ ما يكون من المفيد التمييز بين الدراسات «الرصدية» والدراسات «التجريبية»» وبالمثل بين 
البيانات الرصدية والبيانات التجريبية. تشير الصفة «رصدية» إلى الحالات N e‏ يستطيع المرء 
فيها أن يتدخل في عملية جمع البيانات؛ فعلى سبيل المثال» في استطلاع حول التوجهات الذهنية 
للأشخاص حيال السياسيين (انظر dst TOES‏ عينة مناسبة من الأشخاص عن شعورهم» أو في 
Aul ja‏ لخصائص المجرات البعيدة سوف تخضع هذه الخصائص للرصد والتسجيل. في هذين 
WEGE E rire a nmin‏ 
الأشخاص أو الأشياء. لا وجود هنا Sa)‏ 3 القيام بشيءٍ ما للأشخاص أو المجرات قبل قياسها. في 
المقابل» في الدراسة التجريبية يتلاعب الباحثون فعليًا بعناصر الدراسة بطريقة ما؛ على سبيل 
المثال» في تجربة سريرية ربما يعرّضون المتطوّعين ol sal‏ معين قبل أخذ القياسات doai uis.‏ 
تصنيعية لإيجاد الظروف التي تسفِر عن أقوى منتج نهائي» سيجرّبون ظروقا مختلفة. 


Xx] (hd‏ الفروق الجوهرية بين الدراسات الرصدية والتجريبية في أن الدراسات التجريبية أكثر 
فعالية بكثير في تحديد السبب والمسبب؛ على سبيل المثال» ربما نخمن أن طريقة معينة لتعليم 
الأطفال القراءة (الطريقة «iy‏ مثلا) أكثر فعالية من طريقة أخرى (الطريقة «ب»). وفي دراسة 
uiua,‏ سوف ننظر للأطفال الذين خضعوا للتعليم باستخدام إحدى الطريقتين ونقارن قدرتهم على 
القراءة. لكننا لن نكون قادرين على التدخل في توزيع الأطفال الذين يخضعون للطريقة «أ» والذين 
يخضعون للطريقة «ب»؛ فهذا يتحدد من قبل شخص JA!‏ يسبب ذلك مشكلة محتملة؛ إذ يعني أنه 

من الممكن أن توجد اختلافات أخرى بين He gene‏ تعلم cel il‏ فضا عن طريقة التدريس؛ على 
سبيل المثالء ولتقديم توضيح صارخ» ربما Gal‏ المدرّس جميع الأطفال الذين يتعلمون على نحو 
أسرع بالطريقة «أ»؛ أو ربما كان الأطفال انفسهم مسموحًا لهم بالاختيار» ومال أولئك الأكثر Lassi‏ 
بالفعل في القراءة إلى اختيار الطريقة «أ». إذا كنا أكثر تمرسًا في مجال الإحصاءء فربما نستخدم 
أساليب إحصائية في محاولة للسيطرة على أي اختلافات موجودة مسبقا بين الأطفال» وكذلك 
العوامل الأخرى التي نعتقد أنها من المرجّح أن تؤثر على مدى سرعة تعلمهم القراءة. ولكن تظل 
هناك Leila‏ احتمالية وجود تأثيرات أخرى لم نفكّر فيهاء uil‏ تسبب الفرق. 


تتغلب الدراسات التجريبية على هذا الاحتمال عن طريق الاختيار المتعمّد لكل طفل وللطريقة التي 
يدرس بها؛ فإذا كنا نعرف بالفعل كل العوامل المُمكنة» بالإضافة إلى طريقة التدريس س التي 
يمكن أن تؤثر على القدرة على القراءة — يمكننا التأكد من أن التوزيع على طريقتي التدريس كان 
«متوازتًا» € على سبيل المثال» إذا US‏ نظن أن القدرة على القرا ءة تتأثر بالعمر» > يمكننا توزيع العدد 
نفسه من الأطفال الصغار على كل طريقة. وهكذاء فإن أي اختلافات في القدرة على القراءة ناشئة 
عن العمر لن يكون لها أي تأثير على الفرق بين مجموعتينا؛ أي إنه إذا كان للعمر تأثير على 
القدرة على cde} pall‏ فإن التأثير سيكون نفسه في كلتا المجموعتين. ومع «ils‏ تمتلك الدراسات 
التجريبية وسيلة أكثر قوة في اختيار أي طفل يخضع لأي طريقة» والتي يُطلق عليها اسم «التوزيع 


نتيجة هذا أنه في الدراسة التجريبية يمكن أن نكون أكثر 48 Jus‏ سبب أي تأثير مرصود. وفي 
تجربة مقارنة تعليم القراءة» يمكننا أن نكون LAS)‏ ثقة أن أي فرق في القدرة على القراءة بين 
المجموعتين هو نتيجة لطريقة التعليم» وليس نتيجة عامل Al‏ 


للأسف» ليس من الممكن Laila‏ إجراء التجارب بدلا من الدراسات الرصدية. فلا يمكننا مثلا 
تعريض المجرات المختلفة لظروف مختلفة! وعلى أي حال» ربما يكون من المضلل في بعض 
الأوقات استخدام المنهج التجريبي؛ ففي كثير من الدراسات المسحية الاجتماعية» يتمثل الهدف في 
معرفة حال السكان الحقيقي» لا في «ماذا سيكون التأثير الناتج إذا فعلنا كذا وكذا؟» ومع cells‏ إذا 
US‏ نريد بالفعل أن نعرف ماذا سيكون تأثير أي dene di d‏ فإن الدراسات التجريبية MG‏ 
استراتيجية أفضل. هذا النوع من الدراسات واسع الانتشار في قطاع الصناعات الدوائية والطب 
وعلم النفس» ومجال التصنيع والصناعات التحويلية» كما يُستخدم على نحو متزايد في تقييم 
السياسة الاجتماعية وفي مجالات مثل إدارة قيمة العملاء. 


وعموماء عند جمع البيانات بهدف إجابة أو استكشاف بعض الأسئلة كلما 5 cual‏ البيانات e‏ 
cant‏ > زادت دقة الإجابة التي يمكن J paal‏ عليها؛ وهذا نتيجة ل «قانون الأعداد الكبيرة»» الذي 
سيناقش في الفصل الرابع. ولكن جمع المزيد من البيانات يفرض تكلفة أكبر. ae‏ 
الضروري التوصل إلى حل ccs. duas‏ كين cii da‏ التي تُجِمّع وتكلفة جمعها. 
dissi guinea PCI eed:‏ فى 46 leg ian qi‏ رجه الصو رده 
«التصميم التجريبي» و «مسح العينات» نوعين من التخصصات الرئيسية. 


)7( التصميم التجريبي 

رأينا بالفعل أمثلة لتجارب بسيطة جذا. وتتمثل إحدى أبسط التجارب في تجربة سريرية ثنائية 
المجموعة تستخد تستخد i‏ عينات عشوائية. والهدف هنا هو المقارنة بين علاجين من العلاجات البديلة 
)»« و «ca»‏ مثلا) لكي نستطيع معرفة أيهما ينبغي إعطاؤه لمريض جديد. ولاكتشاف ذلك» pu‏ 
العلاج «i»‏ إلى إحدى عينتي المرضّى» والعلاج «ب» إلى العينة الأخرى من المرضى» exi s‏ 
فعالية العلاج. وإذا تفوّق «iy‏ على «c»‏ في chau gall‏ فإننا سنوصى أن يتلقى المريض الجديد 
العلاج «I»‏ سيعتمد معنى كلمة «تفوق» في الجملة السابقة على الدراسة نفسها؛ إذ يمكن أن تعني 
«يشفي المزيد من المرضى»» أو «يطيل متوسط العمر»» أو «يسبب متوسط انخفاض أكبر في 
الألم»» أو ما إلى ذلك. 


كما لاحظنا بالفعل سابقاء إذا كانت مجموعتا المرضى تختلفان على نحو ماء فإن الاستنتاجات التي 
يمكن أن نستخلصها محدودة. فإذا كان المرضى الذين تلقو | العلاج gas. «I»‏ من g «9 SAN‏ الدين 
تلقوا العلاج (up‏ كم كن ارو تان SCS‏ أي فرق بين المجموعتين لاحظناه 
يرجع إلى العلاج أم إلى اختلاف الجنس؛ إذ ربما تتحسن صحة GUY)‏ أسرع gan‏ النظر عن 


العلاج. وتنطبق النقطة نفسها على أي عامل آخَر؛ العمر أو الطول أو الوزن أو مدة المرض أو 
تاريخ العلاجات السابقةء أو ما إلى ذلك. 


إحدى استراتيجيات تقليل هذه الصعوبة تكمن في توزيع المرضى Éi pie‏ على مجموعتي العلاج. 
تكمن قوة هذا النهج في أنه على الرغم من عدم ضمانه لوجود توازن ue)‏ سبيل المثال» من 
الممكن أن تؤدي عملية التوزيع العشوائي إلى وجود نسبة أعلى بكثير من الذكور في مجموعة 
واحدة عن الأخرى)» فإن القواعد الأساسية للاحتمال (التي نناقشها في الفصل الرابع) تخبرنا أن 
اختلالات التوازن الكبيرة غير مرجحة الحدوث على نحو كبير. في الواقع» من الممكن التعمق 
أكثر من هذا بحساب احتمالية حدوث درجات عدم التوازن المختلفة. وهذا بدوره يتيح Ul‏ حساب 
مدى الثقة التي يجب أن نمتلكها حيال استنتاجاتنا. 


وعلاوة على ذلك إذا كان التوزيع العشوائي «مزدوج التعمية»» فلا يوجد خطر التحيز اللاواعي 
الذي يتدخل في عملية التوزيع أو قياس المرضى. وتكون الدراسة مزدوجة التعمية إذا لم يكن 
المريض ولا الطبيب الذي يجري التجربة يعرف أي علاج يتلقاه المريض. ويمكن تحقيق ذلك عن 
طريق جعل الأقراص أو الأدوية تبدو متطابقةء وترميزها ببساطة بالحرفين Kom‏ و«ص» دون 
الإشارة إلى ماهية العلاج. وفي وقت لاحق فحسب — بعد أن يكشف التحليل أن «س» أفضل من 
«oa»‏ تقك شفرة الترميزء لتوضيح أن «س» هو في حقيقته العلاج «أ» أو «ب». 


إن التجربة السريرية الثنائية المجموعة التي تستخدم olie‏ عشوائية بسيطة dis‏ ولها صور 
موسعة واضحة؛ فعلى سبيل المثال» يمكننا التوسع فيها على الفور إلى أكثر من مجموعتي علاج. 
ومع ذلك» ; من أجل التنويع» سوف أغيّر الأمثلة . يرغب مُزارع في معرفة GI‏ من مستويات الماء 
المنخفضة أو العالية أفضل فيما يخص إنتاج غلة أكبر من المحاصيل. يمكنه إجراء تجربة بسيطة 
ثنائية المجموعة من النوع المذكور سابقا لتحديد هذا . وبما أننا نعلم أن النتائج ليست متوقعة تماما 
فسوف يريد تعريض أكثر من صوبة واحدة لمستوى مياهٍ منخيفضء» وأكثر من صوبة واحدة 


ولكن لنفترض الآن أن المزارع يريد أيضًا أن يعرف أي من مستويات الأسمدة المنخفضة والعالية 
أكثر فعالية. الشيء البديهي القيام به هو إجراء تجربة أخرى As‏ المجموعة؛ هذه المرة باستخدام 
Cli pe a‏ تتلقى co iaa‏ منخفضنا من lie coria cll day yy Breall‏ هذا clam oun‏ ولكن 
الإجابة على كلا Gall gull‏ س SI gull‏ عن مستوى الماء والسؤال عن مستوى الأسمدة ‏ تتطلب 
ما مجموعه ست عشرة صوبة. وإذا كان المزارع مهتمًا أيضًا بفعالية مستويات الرطوبة المنخفضة 
والعالية» ودرجة الحرارة» وساعات التعرض لضوء الشمسء وما شابه ذلك؛ فسنرى أنه سيكون 
بحاجة لعدد كبير للغاية من الصوبات. 


توجد طريقة ذكية للغاية للالتفاف حول ذلك؛ وهي باستخدام مفهوم تصميم التجارب «العاملية»؛ 
Yad‏ من تنفيذ تجربتين منفصلتين» واحدة للمياه وواحدة للأسمدةء يستطيع المزارع معالجة صوبتين 


ilies an «ue ESTE ME NU PD EIS ea. Ay placid 
هذا يتطلب فقط ثماني صوبات زراعية» ومع ذلك نظل نعالج‎ «gie «عاليةء‎ c ومنخفضش»» واثنتين‎ 
منها بمستوى مياه منخفض وأربعًا بمستوى مياه عال» وكذلك اربع صوبات بمستوى أسمدة‎ Les J 
منخفض وأربعًا بمستوى أسمدة عال؛ ومن ثم فإن نتائج التحليل سوف تكون دقيقة تمامًا كما لو كنا‎ 

أجِرَيّنا تجربتين منفصلتين. 


في الواقع»ء يمتلك هذا التصميم العاملي (المياه والأسمدة كلاهما «عامل») ميزة إضافية جذابة؛ فهو 
يتيح Gl‏ معرفة ما إذا كان تأثير مستوى السماد مختلقا عند مستويّي المياه؛ فربما يختلف الفرق بين 
SECUN‏ مع مستويي الأسمدة المنخفض والعالي في حالة اختلاف مستوى المياه. وهذا eee‏ 
«تأثير التفاعل»» ولا يمكن فخصّه في نهج إجراء تجربتين منفصلتين. 


Ge‏ التو قن oda‏ الفكنة sane Gob: Lisl)‏ اج yd tpl‏ للغاية للخصيول: على 
معلومات دقيقة من أجل الوصول SAM‏ الأدنى من التكلفة. وعند lcs‏ إلى غيرها من Ca gal‏ 
التصميم التجريبي» مثل التوازن والتوزيع العشوائي والسيطرة على التأثيرات المعروفة» نتجت 

بعض التصاميم التجريبية المتطورة للغاية. 


أحيانًا في التجارب تكون الأمور غير الإحصائية مهمّة؛ فعلى سبيل المثال» في التجارب السريرية 
والدراسات الطبية ودراسات السياسة الاجتماعية الأخرى» ربما تكون الأمور الأخلاقية ذات صلة؛ 
ففي تجربة سريرية تقارن علاجًا جديدا LA ia‏ مع علاج وهمي (غير (Lads‏ سنكون على معرفة 
ال نكف المرصب المتطر عر ن ades‏ له أي ls‏ وک هل هذا مناسب؟ هل 
يوجد خطر أن يُعانِي أولئك الذين يتناولون العلاج الجديد المقترح من آثار جانبية؟ مثل هذه الأشياء 
فح اج تعر ee ie oe ah‏ ون mS‏ 


gas‏ أنه من أجل إدارة DUI‏ على نحو فعال؛ نود أن نعرف متوسط الدخل لمليون شخص عامل 

من الرجال والنساء في بلدة معينة. cG ala‏ يمكننا تحديد هذا عن طريق سوال كل pele‏ عن alaa‏ 
وحساب متوسط النتائج. slabs Li‏ فإن هذا سيكون صعبًا للغاية» ويكاد يكون مستحيلا. وفضلا عن 
أي شيء AT‏ من المرجّح أن يتغير الدخل على مدى الوقت الذي سيستغرقه جمع البيانات؛ فربما 
يترك بعض الناس وظائفهم أو يغيرونهاء وربما يتلقى البعض الآخر علاوات» وما إلى ذلك. 
وعلاوة le‏ ذلك فإن::تعقت كل شخض gy Sa‏ مكلفا Ayla)‏ ربما نحاول خفض التكاليف من 
خلال الاعتماد على الهاتف» لا المقابلات casa‏ ولكنْ كما Lh)‏ سابقًا فى الحالة المتطرّفة 
للانتخابات الرئاسية في الولايات المتحدة لعام ١۹۳٠ء‏ يوجد خطر كبير بأننا سوف تغفل عن 
شرائح مهمة من السكان. 


ما نحتاجه هو طريقة ما لتقليل تكلفة جمع البيانات لكنها في نفس الوقت تجعل العملية أسرع» 
وتجعلها ‏ إذا أمكن ‏ أكثر دقة أيضًا. بصياغة الأمر بهذه الطريقة» ربما يبدو الأمر كأنه مهمة 
شاقةء ولكن الأفكار والأدوات الإحصائية التي تتمتع بهذه الخصائص موجودة. والفكرة الرئيسية 
هي فكرة قابلناها عدة مرات من قبل؛ وهي فكرة ET‏ 


لنفترض أنه بدلا من معرفة ما يحصل عليه كل واحد من المليون موظفء سألنا ببساطة Cal)‏ 
موظف منهم. oS‏ علينا بوضوج الآن أن نكون حَذِرين بشأن الألف موظف الذين نسألهم بالضبط. 
وأسباب ذلك هي في الأساس الأسباب نفسها نفسها التي US Laie Like a‏ نصمّم التجربة الثنائية المجموعة 
البسيطة إلى اتخاذ خطوات لضمان أن الفرق الوحيد بين المجموعتّين كان أن واحدة تتلقى العلاج 
»أ« والأخرى تتلقى العلاج «ب»؛ لذا Lule‏ الآن أن نتأكد أن الأشخاص الألف المحددين الذين 
hey as ea‏ انوعدي uis etd‏ و 


ما الذي نعنيه بكلمة «ممثل»؟ على نحو مثالي» ينبغي أن تكون عيّنتنا المكوّنة من Call‏ موظف 

تحتوي على نسبة الرجال نفسها à baga gall‏ في المجموعة الكاملة الخاضعة للدراسةء والنسبة نفسها 
من الشباب» والنسبة نفسها من العاملين بدوام جزئي» وما إلى ذلك. نستطيع ضمان ذلك إلى ba‏ ما 
من خلال اختيار Gill‏ موظف بحيث تكون نسبة الرجال س على سبيل المثال — صحيحة. ولكن 
من الواح :أنه يوك glee ab‏ لما ga Ly‏ ته حم obgy‏ الطريقة. 


شاهدنا كيفية التعامل مع هذه الصعوبة عندما تناولنا التصميم التجريبي؛ وذلك من خلال «التوزيع 
العشوائي» للمرضى على كل مجموعة من المجموعتين. في حالتنا هذه سنتعامل معها عن طريق 
«أخذ عينة غشوائية» .من ألف شخص من مجموعة الموظفين الكلية الخاضعة للدراسة. ومرة 
أخرى» رغم أن هذا لا يضمن أن العينة ستكون مشابهة في تكوينها للمجموعة الخاضعة As) yall‏ 
فإن الاحتمالية الأساسية تخبرنا أن فرصة الحصول على عيّنة مختلفة كثيرًا ضئيلة Jap‏ وتحديداء 
يترتب على ذلك أن احتمالية أن تكون تقديراتنا لمتوسط الدخل؛ والمستمَدّة من العينةء مختلفة كثيرًا 
عن متوسط الدخل في المجموعة الخاضعة للدراسة بأكملها؛ dius‏ اة . وفي الواقع» dai‏ 

خاصيتان للاحتمالات س سوف, نتناولهما في وقت لاحق؛ هما «قانون الأعداد الكبيرة» 

و«مبرهنة النهاية المركزية»  Li Gl‏ اننا يمكننا جعل هذه الاحتمالية ضئيلة كما نشاء 
من خلال زيادة حجم العينة. ويتضح لنا أن ما يهم حقا ليس مدى كبر نسبة العينة إلى المجموعة 
الكلية» وإنما ببساطة مدى كبر حجم العينة. فسيكون تقديرنا — المستند إلى حجم عينة مكونة من 
cal‏ شخص — بالدقة نفسها إذا كانت المجموعة الكلية الخاضعة للدراسة تتألف من عشرة ملايين 
أو عشرة مليارات شخص. lay‏ أن حجم العينة يرتبط ارتباطا مباشرًا بتكلفة جمع البيانات» gÉ‏ 
لدينا GY!‏ علاقة مباشرة بين الدقة والتكلفة؛ فكلما كان حجم العينة أكبرء زادت التكلفة» ولكن قل 
احتمال الانحراف الكبير بين تقدير العينة ومتوسط المجموعة الكلية الخاضعة للدراسة. 


Vid فى سيل‎ in cllc لامر عملي‎ dio “ها في‎ s a 
تكون ممثلة‎ Y هذه العينة قد‎ GY شخص من أكبر شركة في المدينة؛‎ call يمكننا ببساطة اختيارٌ‎ 


للعاملين المليون جميعهم. وبالمثل» لا يمكننا الاتصال بعينة عشوائية من بيوت الأشخاص في 
الساعة الثامنة مساءً؛ لأننا سنغفل عن أولئك الذين يعملون في وقت متأخرء وربما يختلف هؤلاء 
العمال في متوسط الدخل عن الآخرين. وعمومّاء للتأكد من أن العينة المكونة من Call‏ شخص 
مُمتلة على نحو مناسب للمجموعة الكلية» فإننا بحاجة إلى «إطار المعاينة»؛ وهو قائمة تضم 
المليون العاملين جميعهم في المجموعة الخاضعة للدراسةء والتي يمكن أن نختار منها Call‏ شخص 
عشوائيًا. إن وجود fie‏ هذه القائمة يضمن أن احتمالية تضمين كل الأشخاص في العينة متساوية. 


Si‏ فكرة «أخذ العينات العشوائية البسيطة» هذه أساسًا لعملية مسح العينات؛ فقد USS‏ إطار 
معاينة» ومنه JÖN‏ عشو UG‏ الأشخاص الذين pga‏ في عيّنتناء ثم نتعقبهم (من خلال مقابلة 
شخصية أو اتصال هاتفي أو رسالة أو بريد إلكتروني» أو بأي طريقة) ونسجل البيانات التي 
نريدها. وقد طورت هذه الفكرة الأساسية بالعديد من الطرق الدقيقة والمتطورة جدًا؛ مما أسفر عن 
نهج أكثر دقة وأقل تكلفة؛ على سبيل cal‏ إذا S‏ ننوي مقابلة كل شخص من الألف المشاركين 
في cl jd‏ قن لك يمكن أن يكون is Clay cl cus ce hy Ue‏ سيكون من الأفضل 
من هذا المنظور — اختيار المشاركين في الدراسة من عناقيد جغرافية محلية صغيرة. en‏ 
(dod Ed =)‏ عطية on sel‏ او ibd Mans ted ar a‏ 
au Up Dd‏ ا seen UNITA‏ 
بالقرب من بعض. وبالمثل» يمكننا التأكد من تحقيق التوازن في بعض dal gall‏ بدلا من مجرد 
الاعتماد على إجراء أخذ العينات العشوائية» إذا lie yi‏ التوازن على طريقة اختيار العينة؛ على 
سبيل المثال» يمكننا أن نختار Inc É pie‏ من النساء من المجموعة الخاضعة للدراسةء ونختار 
Gil pte‏ على نحو منفصل عددًا من الرجال من المجموعة الخاضعة للدراسة؛ حيث يتم اختيار 
الأعداد بحيث تكون نسب الذكور والإناث هي نفسها كما هي الحال في المجموعة الإجمالية 
الخاضعة للدراسة. يُعرف هذا الإجراء بأنه «الطريقة الشرائحية لأخذ العينات»؛ aud GY‏ 
المجموعة الكلية الخاضعة للدراسة Ansel‏ في Jes‏ العينة إلى شرائح (الرجال والنساء في هذه 
الحالة). وإذا كان المتغير المستخدم في الشرائح (الجنس في هذا المثال) يرتبط ارتباطا Úa‏ 
بالمتغير الذي نهتم به (الدخل (Us‏ يمكن أن يسفر هذا عن تحسن في الدقة لحجم العينة نفسه. 


Bees E Wei gi كو‎ dedi ieee, 
مقدار من عدم الاستجابة» وهذا يعود بنا إلى مشكلة البيانات‎ Ula الذين نتو اصل معهم. يوجد‎ 
وكما رأيناء يمكن للبيانات الناقصة أن تؤدي إلى عينة متحيزة‎ dila الناقصة التي ناقشناها‎ 
واستنتاجات غير صحيحة. فإذا رفض الذين يحصلون على رواتب كبيرة المشاركة في الدراسة»‎ 
فسوف نبخس تقدير متوسط الدخل في المجموعة الخاضعة للدراسة. وبسبب هذاء طور خبراء‎ 
الدراسات المسحية مجموعة متنوعة من وسائل تقليل وضبط عدم الاستجابةء بما في ذلك تكرار‎ 

التواضل ae‏ فيز المستحيبين:وإجراءات bale)‏ الثقيم الإخصاتي. 


خاتمة 


تناول هذا الفصل المواد الخام للإحصائيات؛ وهي البيانات. وقد صيغت تقنيات جمع بيانات 
متطورة على يد الإحصائيين للحصول على أقصى قدر من المعلومات بالحد الأدنى من التكلفة» 
ولكن سيكون من السذاجة الاعتقاد بأنه يمكن عادة الحصول على بيانات مثالية. إن البيانات انعكاس 
للعالم الحقيقي» alll,‏ الحقيقي معقد . وإدراكًا لهذاء طور الإحصائيون أيضًا أدوات للتعامل مع 
البيانات ذات الجودة الرديئة. ولكن من المهم أن ندرك أن الإحصائيين ليسوا Aor‏ 8 وينطبق القول 
المأثو ر القديم: CA AA»‏ عديمة النفع تساو ci T‏ عديمة النفع» تماما على الإحصائيات كما 
ينطبق على كل شيء آخر. 


الفصل الرابع 
الاحتمالات 


كونك ilaa‏ يعني أنك لن تضطر أبدَا إلى القول بأنك متأكد. 


مجهول 


أحد التعريفات التي قدمت في الفصل الأول حول الإحصاء هو أنه علم التعامل مع عدم اليقين. 
وبما أنه من الواضح للغاية أن العالم مليء بعدم اليقين» فإن هذا أحد أسباب هيمنة الأفكار 
والأساليب الإحصائية. إن المستقبل مجهول ولا نستطيع أن نكون واثقين بشأن ما سيحدث. وبالفعل 
يحدث ما هو غير متوقع؛ فتتعطل السيارات ونقع في حوادث ويضرب البرق» وخشية أن أقدم 
انطباعًا بأن كل الأمور سيئة» أقول إن هناك مَّن يفوزون حتى باليانصيب. وفي أبسط الحالات» 
نحن لا نعلم يقيتا أي حصان سيفوز بالسباق أو أي عدد سوف يظهر عند إلقاء نرد. وفوق ذلك calS‏ 
لا نستطيع التنبؤ بطول الحياة التي سنعيشها. 


لكن على الرغم من كل هذاء يتمثل أحد أعظم الاكتشافات التي توصلت إليها البشرية في أنه يوجد 
مبادئ معينة تحكم fis‏ المصادفة وعدم اليقين. ربما يبدو هذا تناقضًا في المصطلحات؛ فالأحداث 


غير اليقينية بطبيعتها لا تنطوي على يقين؛ فكيف إذن توجد قوانين طبيعية تحكم سير هذه الأمور؟ 


إحدى الإجابات على هذا السؤال هي أنه في حين أن الأحداث الفردية ربما تكون غامضة وغير 
قابلة للتنبؤ بهاء فإنه غالبًا ما يكون من الممكن الخروج بتعميم ينطبق على مجموعة من الأحداث. 
المثال الكلاسيكي لذلك هو إلقاء العملة؛ فرغم أنني لا أستطيع أن أقول ما إذا كانت العملة ستظهر 
وجه الصورة al‏ الكتابة بعد أي عملية إلقاء منفردة» يمكنني أن أقول بثقة كبيرة إنه إذا ألقيت العملة 
عدة مرات فإنها ستظهر وجه الصورة في حوالي نصف عدد المرات ووجه الكتابة في حوالي 
نصف عدد المرات. (أفترض هنا أن ikal‏ «عملة متزنة»» وأنه لا exu‏ أي خدعة بالأيدي 
أثناء إلقائها.) وثمة مثال آخر في هذا النطاق هو تحديد ما إذا كان المولود ذكرًا أم أنثى؛ فتحديد 
الجنس خلال عملية الحمل أمر خاضع للمصادفة البحتة ولا يمكن التنبؤ به. ولكننا نعرف أنه على 
مدار العديد من حالات الولادة فإن أكثر من نصف عدد المواليد بقليل سيكونون ذكورًا. 


axi‏ هذه السمة الطبيعية القابلة للملاحظة مثالا للقوانين التي تحكم عدم اليقين» ويطلق عليها اسم 
«قانون الأعداد الكبيرة» بسبب حقيقة أن النسبة تقترب أكثر وأكثر من قيمة معينة (النصف في 
حالات العملة المتزنة ونوع جنس المواليد) كلما زاد عدد الحالات التي ننظر فيها. لهذا القانون 
تبعات متعددة» وهو واحد من أقوى الأدوات الإحصائية في ترويض عدم اليقين والسيطرة عليه 
والسماح Ul‏ بالاستفادة منه. وسنعود إليه لاحقًا في هذا الفصل» وعلى نحو متكرر خلال الكتاب. 


(Y)‏ فهم الاحتمالات 


لكي نتمكن من مناقشة مسائل عدم اليقين وعدم القدرة على التنبؤ دون غموضء فإن ale‏ الإحصاء 
يستخدم — مثل أي علم del - A)‏ دقيقة؛ وهي لغة «الاحتمالات». وإذا كان هذا هو أول 
تعرّض لك للغة الاحتمالات» إذن يجب أن أحذرك من أنك سوف تكون بحاجة لبذل بعض الجهد 
من أجل فهمهاء كما هي الحال مع أول تعرض للمرء GY‏ لغة جديدة. وبوضع ذلك في الاعتبارء 
ربما تجد في الواقع أن هذا الفصل يتطلب القراءة أكثر من مرة واحدة؛ فربما ترغب في إعادة 
قراءة هذا الفصل مرة أخرى عندما تصل إلى نهاية الكتاب. 


ازدهر تطور لغة الاحتمالات في القرن السابع عشر. وقد أرسى قواعدها علماء الرياضيات أمثال 
بليز باسكال وبيير دي فيرما وكريستيان هيجنز وجاكوب برنولي» ومن بعدهم بيير سيمون لابلاس 
وأبراهام دي موافر وسيميون-دنيس بواسون وأنطوان كورنو وجون فين» وغيرهم. وبحلول أوائل 
القرن العشرين» كانت كل الأفكار اللازمة لعلم احتمالات قوي متوافرة. وفي عام ۹۳۳٠ء‏ قدم alle‏ 
الرياضيات الروسي أندريه كولموجوروف مجموعة من البديهيات التي قدمت «حسابًا» ol‏ 
ews y‏ كاملا للاحتمالات. diay‏ ذلك asic! «cell‏ نظام البديهيات هذا Galle‏ تقريبًا. 


توفر بديهيات كولموجوروف All‏ يمكن من خلالها التعامل مع الاحتمالات» لكنها بنية رياضية. 
ولاستخدام هذه البنية لتقديم بيانات حول العالم الحقيقي» من الضروري الإشارة إلى ما تمثله 
الرموز الموجودة في الآلية الرياضية الموجودة في هذا العالم؛ أي إننا بحاجة إلى قول ما «تعنيه» 
الرياضيات. 


يعين حساب الاحتمالات أرقامًا بين ٠‏ و١‏ للأحداث غير المؤكدة لتمثيل احتمالية حدوثها. يعني 
الاحتمال ١‏ أن هذا الحدث مؤكد ule)‏ سبيل «Mall‏ احتمال أنه لو أن أحدهم نظر من نافذة حجرة 
کی يبلطا كيت أكتب هذا الكتاب» لرآني جالسًا إلى مكتبي). والاحتمال ٠‏ يعني أن الحدث 

مستحيل (على سبيل المثال» احتمال أن شخصًا ما سوف ينهي سباق ماراثون في عشر دقائق). 
A bats‏ لحت م AR, cies pena‏ لبس يز Sita TiS‏ فان Giy‏ بين ٠‏ و١‏ يمثل 
«احتمال» حدوثه. 


Gas!‏ طرق النظر إلى هذا الرقم هي أنه يمثل «درجة اعتقاد» المرء أن الحدث سوف يحدث. 
سوف يمتلك الأشخاص المختلفون معلومات أكثر أو أقل متعلقة بكون الحدث سيقع أم لا؛ لذلك 
pt Ua‏ أن يمتلك الأشخاص المختلفون درجات مختلفة من الاعتقاد؛ وهذا يعني احتمالات 
مختلفة لهذا الحدث. ولهذا السبب» ف وة النظر تلك حيال uta! Leia!‏ «الذاتي» أو 
«الشخصي»؛ فهي تعتمد على من يقيّم الاحتمال. ومن الواضح يسا أن الاحتمال لدی الشخص 
ربما يتغير مع توافر المزيد من المعلومات. فربما تبدأ باحتمال س درجة اعتقاد س تبلغ 7/١‏ أن 
عملة معينة سوف تستقر ووجه الصورة لأعلى (على أساس تجربتك السابقة مع قذف عملات 
معدنية أخرى)» ولكن بعد مراقبة استقرار العملة ووجه الصورة لأعلى ٠‏ مرة منتالية دون 
استقرارها على وجه الكتابة bed‏ ربما تصبح متشككًا وتغير احتمالاتك الشخصية بأن تستقر هذه 
العملة على وجه الصورة لأعلى. 


al alf sca ST c EN), oo n a esa d y‏ اتخات لر aad‏ کن كا 
هي الحال مع أي إجراء للقياس» ثمة قيود عملية على مدى دقة تقدير الاحتمالات. 


Sic‏ وجهة نظر مختلفة لاحتمالات وقوع Gan‏ ما في أنها عدد مرات وقوع هذا الحدث إذا 
تكررت الظروف على نحو متطابق لعدد لا نهائي من المرات. lin Sai,‏ قذت Alaal|‏ المتزاكة 
السابق توضيحًا لهذا؛ فقد رأينا أنه بينما تقذف العملةء فإن نسبة ظهور الصورة تقترب أكثر وأكثر 
من قيمة محددة. وتعرّف هذه القيمة على أنها احتمال استقرار العملة على وجه الصورة لأعلى في 
أي عملية قذف واحدة. ونظرًا لدور التكرارات»ء أو عدد المرات» في تحديد هذا التفسير 
للاحتمالات» فإنه يسمى التفسير «التكراري». 


LS LL,‏ هي الحال مع النهج الذاتي» توجد قيود عملية تمنعنا من إيجاد الاحتمالات التكرارية 
بالضبط؛ فعمليتا قذف Alan]‏ ما لا يمكن أن تمتلكا حقا ظروفا متطابقة تمامًا؛ فسوف تبلى بعض 
الجزيئات من العملة في الرمية «ul yl‏ وستختلف تيارات cel sell‏ وسترتفع درجة حرارة العملة 
قليلا جراء التمامنّ مع الأصابع à‏ فى المرة الأولى. وعلى أي حال سيكون علينا وقف قذف العملة في 
Cid g‏ ما؛ لذلك لا يمكننا يمكننا قذفها فعليًا لعدد لا نهائي من المرات. 


هذان التفسيران المختلفان لما تعنيه الاحتمالات لهما خصائص مختلفة. فيمكن استخدام النهج الذاتي 
لتعيين احتمال معين لحدثِ فريد من نوعه؛ حدثِ يكون التفكير في تكراره في ظل ظروف مماثلة 
لعدد م won uw uin‏ لا معنى له؛ على سبيل المثال» ليس هناك 
PERCY‏ قتراح عمل سلسلة لا نهائية من المحاولات المتطابقة لاغتيال الرئيس المقبل للولايات 
المتحدة» بحيث يؤدي بعضها لنتيجة ما والبعض الآخر لنتيجة أخرى؛ لذلك يبدو من الصعب 
تطبيق التفسير التكراري على مثل هذا الحدث. من ناحية أخرىء» فإن النهج الذاتي ينقل الاحتمالات 
من كونها خاصية موضوعية للعالم الخارجي (مثل الكتلة أو الطول) إلى كونها خاصية للتفاعل بين 
الراصد als‏ فالاحتمالات الذاتية تجعل الراصد هو الأساس. قد يشعر البعض أن هذا نقطة 
ضعف؛ فهذا يعني أن الأشخاص المختلفين يمكنهم استخلاص استنتاجات مختلفة من التحليل نفسه 
للبيانات نفسها. وقد jug‏ البعض الآخر نقطة قوة 8% 3l‏ إن الاستنتاجات تتأثر بمعرفتك السابقة. 


مع Alla‏ توجد تفسيرات أخرى للاحتمال؛ فعلى سبيل المثال» يفترض النهج «الكلاسيكي» أن 
جميع الأحداث تتكون من مجموعة من الأحداث الابتدائية المتساوية الاحتمال؛ فعلى سبيل المثال» 
رمي النرد قد ينتج الرقم ١‏ أو ۲ أو Y‏ أو > أو o‏ أو V‏ وتمائل النرد يشير إلى تساوي احتمالية 
ظهور هذه النتائج الست» وهكذا كل رقم لديه احتمال يبلغ ٠/١‏ (يجب أن يكون مجموعها «Y‏ نظرًا 
لأنه من «المؤكد» أن واحدًا من الأرقام ١‏ أو ۲ أو JY‏ > أو ه أو 5 سوف يظهر). واحتمال 
الحصول على عدد زوجي س على سبيل المثال — هو مجموع الاحتمالات المتساوية لكل أحداث 
الحصول على Y‏ أو > أو 5؛ ومن ثَمَّ فهو يساوي .7/١‏ ومع ذلك» في ظروف أقل اصطناعية» 
توجد صعوبات في تحديد ماهية هذه الأحداث «المتساوية الاحتمال»؛ على سبيل المثال» إذا كنت 
أريد معرفة احتمال أن تستغرق رحلتِي الصباحية JE Jall‏ من ساعة واحدة» فإنه ليس من 
الواضح على الإطلاق ما ينبغي أن تكون عليه الأحداث الابتدائية المتساوية الاحتمال. لا يوجد 
تمائل واضح في هذا الموقف مشابه للتماثل الموجود في حالة النرد. وعلاوة على ذلكء إذا تطلبنا 
أن تكون الأحداث الابتدائية «متساوية الاحتمال» فسنقع في فخ التعريف الدائري؛ إذ يبدو أننا هكذا 
نعرّف الاحتمال باحتمال. 


ويجدر التأكيد هنا على أن كل هذه التفسيرات المختلفة للاحتمالات تتوافق مع البديهيات نفسها ويتم 
معالجتها بالآلية الرياضية نفسها. ما يختلف ببساطة هو طريقة رسم خريطة العالم الحقيقي؛ أي 
تعريف ما «يعنيه» الكائن الرياضي. أحياتا أقول إن «الحساب» هو نفسه»ء ولكن «النظرية» 
مختلفة. وفي التطبيقات الإحصائية س كما سنرى في الفصل الخامس — يمكن للتفسيرات 
المختلفة أن تؤدي في بعض الأحيان إلى استخلاص استنتاجات مختلفة. 


(Y)‏ قوانين المصادفة 


ذكرنا بالفعل قانونًا واحدًا من قوانين الاحتمالات؛ وهو قانون الأعداد الكبيرة. وهذا القانون يربط 
رياضيات الاحتمالات بالملاحظات التجريبية في العالم الحقيقي. وثمة قوانين أخرى للاحتمالات 
متضمنة في بديهيات الاحتمالات. وتتضمن بعض هذه القوانين المهمة للغاية مفهوم «الاستقلال ». 


يقال إن الحدثين مستقلان إذا كان وقوع أحدهما لا يؤثر على احتمالات وقوع الآخر؛ فحقيقة أن 
العملة التي قذفتها بيدي اليسرى سوف تستقر ووجه الكتابة لأعلى بدلا من وجه الصورة لا تؤثر 
على نتائج قذف العملة Gay‏ اليمنى» فعمليتا قذف العملة هاتان مستقلتان. وإذا كان احتمال أن 
العملة الموجودة في يدي اليسرى سوف تستقر ووجه الصورة لأعلى هو «Y/Y‏ واحتمال أن العملة 
في يدي اليمنى سوف تستقر ووجه الصورة لأعلى هو CY/Y‏ فإن احتمال أن UIS‏ العملتين سوف 
تقع على وجه الصورة هو .54/١ = 7/١ x 7/١‏ يسهل إدراك هذا حيث إننا نتوقع أنه في كثير 
من تكرارات تجربة القذف المزدوج سوف تستقر القطعة النقدية في اليد اليسرى ووجه الصورة 
لأعلى فيما يقرب من نصف مرات قذفهاء وأنه من بين هذه الحالات» سوف تستقر القطعة النقدية 
في اليد اليمنى ووجه الصورة لأعلى فيما يقرب من نصف مرات قذفها GY‏ نتائج Adae‏ القذف 


ينتج clus) pea Ale‏ فان gia cl yall ane £/3 Glee‏ عه ANS‏ في Als‏ اليد cig pa‏ 
وصورة في عملة اليد اليمنى» وحوالي 5/١‏ عدد المرات سينتج عنه صورة في Alae‏ اليد اليسرى» 
وكتابة في عملة اليد اليمنى» وحوالي ase 5/١‏ المرات سينتج عنه كتابة في UIS‏ العملتين. 

في المقابلء فإن احتمال التعثر والسقوط في الشارع بالتأكيد ليس مستقلا c‏ إذا كان الشارع 
ofl: (hie‏ چ al‏ لا؛ فهذان الحدثان «غير مستقلين». رأينا A PI‏ للأحداث غير المستقلة في 
الفصل الأول؛ في حالة لسالي كلارك المأساوية التي توفي فيها طفلان في الأسرة نفسها. عندما 
يكون الحدثان غير مستقلين» » فإننا لا نستطيع حساب احتمال وقوع كل منهما ببساطة عن طريق 
ضرب احتمالي وقوعهما المنفصلين Lee‏ وفي (gil sll‏ كان هذا هو الخطأ الذي كان يكمن في 
جوهر قضية سالي كلارك. لإدراك ذلك» دعنا نأخذ الموقف الأكثر تطرفا لحدثين غير مستقلين 
تمامًا؛ 5 عندما «تحدد» نتائج أحد الحدثين «على نحو تام » نتائج الحدث الآخر؛ على سبيل 
المثال» كل عملية قذف Saal y Alec‏ والحدثان «وجه الصورة للعملة لأعلى» و«وجه الكتابة 
للعملة لأسفل». كل من هذين الحدثين لديه احتمال يبلغ النصف؛ فاحتمال أن العملة سوف تستقر 
ووجه الصورة لأعلى هو YAI‏ واحتمال أن العملة سوف تستقر ووجه الكتابة لأسفل هو SEA‏ 
ولكن من الواضح أنهما ليسا حدثين مستقلين. في ja Law «el sll‏ قطان از قاطا كام فعلى أي حال» 
إذا كان الحدث الأول صحيحًا (الصورة لأعلى) «يجب» أن يكون الثاني صحيحًا (الكتابة لأسفل). 
ولأنهما مرتبطان ارتباطا تامّاء فان احتمال أن يحدث كلاهما يساوي ببساطة احتمال حدوث الأول؛ 
وهو احتمال يبلغ النصف. وليس هذا ما نحصل عليه إذا ضربنا الاحتمالين المنفصلين البالغ كل 
Lagia‏ تفا Aa‏ 


بصفة عامة» يعني عدم الاستقلال بين حدثين أن احتمال أن أحدهما سيحدث يعتمد على كون DAY!‏ 


يطلق الإحصائيون على احتمال وقوع حدثين معًا اسم «الاحتمال المشترك» لهذين الحدثين؛ على 
سبيل المثال» يمكننا أن نتحدث عن الاحتمال المشترك بأنني سوف أنزلق E EA os‏ 
cos‏ والاحتمال المشترك بين حدثين يرتبط ارتباطا Lids‏ باحتمال أن يقع Grae‏ ما «إذا» وقع 
al cise‏ هذا يسمى «الاحتمال الشرطي»؛ أي احتمال أن حدثا ما سوف يقع نظرًا لوقوع حدث 
آخر. وهكذا يمكننا أن نتحدث عن الاحتمال الشرطي ceil‏ سوف أنزلق lal) oy‏ 55 مط 
بالثلوج. 


إن الاحتمال (المشترك) لوقوع كلا الحدثين «أ» و«ب» هو ببساطة احتمال وقوع الحدث «أ» 
مضروبًا في احتمال وقوع الحدث «ب» (المشروط) نظرًا لوقوع «أ»؛ فالاحتمال (المشترك) أن 
الثلوج تتساقط وأنني سأنزلق هو احتمال أن الثلوج تتساقط مضروبًا في الاحتمال (المشروط) أنني 
سأنزلق إذا كانت الثلوج قد تساقطت. 


وللتوضيح» $a, Ane y als‏ كود وحدثين. الحدث «أ» هو أن الرقم الظاهر يقبل القسمة 
على ”. والحدث «cu»‏ هو أن الرقم الظاهر يقبل القسمة على SY‏ الاحتمال المشترك لهذين 
الحدثين «أ» و«ب» هو احتمال أن نحصل على عدد يقبل القسمة على «Y 9 Y‏ وهذا الاحتمال يبلغ 
١‏ فقط؛ إذ إن واحدًا فقط من الأرقام ١ء oY‏ ۳ء V ,5 c£‏ يقبل القسمة على كل من Y‏ و". 
والاحتمال المشروط للحدث «c»‏ نظرًا لوقوع «l»‏ هو احتمال الحصول على رقم يقبل القسمة 
على Y‏ من بين الأرقام التي تقبل القسمة على LY‏ حستاء من بين جميع الأرقام التي تقبل القسمة 
على Y‏ (وهذا يعني» من بين ٠٤ CY‏ 5) رقم واحد فقط يقبل القسمة على CY‏ لذلك يبلغ هذا الاحتمال 
الشرطي lady ."/١‏ فإن احتمال الحدث «أ» هو 5/١‏ (نصف الأرقام 2١‏ ۲ء ۳ء >»١ cf‏ 5 
يقبل القسمة على (Y‏ ومن B‏ نجد أن احتمال «أ» )1/1( مضروبًا في الاحتمال (الشرطي) 
للحدث «ب» نظرًا لوقوع (Y/Y) aly‏ هو Y‏ وهو يبلغ نفس قيمة الاحتمال المشترك 
بالحصول على عدد يقبل القسمة على كل من Y‏ و"؛ أي الاحتمال المشترك لوقوع الحدثين «ly‏ 


و«ب». 


في Ev «eil sll‏ سابقًا مفهوم الاحتمال الشرطي في الفصل الأول» في صوره ة مغالطة المدعي. 
EE‏ هذا إلى أن احتمال وقوع الحدث «yy‏ نظرًا إلى حدوث «ex»‏ ليس هو الاحتمال Audi‏ 
بوقوع الحدث «ب» نظرًا لوقوع «أ»؛ على سبيل المثال» احتمال أن شخصًا ما yas‏ شركة كبرى 
يستطيع قيادة سيارة ليس هو الاحتمال نفسه بأن الشخص الذي يستطيع قيادة سيارة يدير شركة 
كبرى. وهذا يقودنا إلى قانون age SAT‏ للغاية من قوانين الاحتمالات؛ وهو «مبرهنة بايز» (أو 
«قاعدة بايز»). تساعدنا مبرهنة بايز في ربط هذين الاحتمالين الشرطيين؛ الاحتمال الشرطي 
للحدث «i»‏ نظرًا لوقوع ea»‏ والاحتمال الشرطي للحدث «c»‏ نظرًا لوقوع .«l»‏ 


RU ud‏ أن احتمال وقوع كلا الحدثين «أ» و«ب» يساوي احتمال أن «أ» سيقع مضروبًا في 
الاحتمال (المشروط) Ob‏ «ب» سيقع نظرًا لوقوع «أ». ولكن يمكن أيضًا كتابة هذا على نحو 
معكوس؛ احتمال أن كلا الحدثين «أ» و«ب» سوف يقعان يساوي أيضًا احتمال أن «ب» سيقع 
مضروبًا في احتمال أن «أ» سيقع نظرًا لوقوع «ب». وتنص نظرية بايز (على الرغم من أنه 
عادة ما يُعبر عن ذلك على نحو مختلف) على أن هاتين الطريقتين ببساطة طريقتان بديلتان لكتابة 
الاحتمال المشترك للحدثين «أ» و«ب»؛ أي إن احتمال «أ» مضروبًا في احتمال «c»‏ نظرًا 
لوقوع الحدث «أ» يساوي احتمال «ب» مضروبًا في احتمال «أ» نظرًا لوقوع الحدث «ب». 
وكلاهما يساوي الاحتمال المشترك بين «iy‏ و«اب». في مثال «رئيس الشركة الذي يقود سيارة»» 
كاين a jl «basi. d] ip ks‏ الشركة E‏ إلى لك E cens‏ 
مضروبًا في احتمال أن تتمكن من قيادة سيارة» يساوي uas‏ أنك تستطيع قيادة سيارة نظرًا إلى 
dli‏ رئيس ASE‏ مضروبًا في احتمال كونك رئيس شركة. وكلاهما يساوي الاحتمال المشترك 
لكونك رئيس شركة وقادرًا على قيادة سيارة. 

ينص قانون آخر للاحتمالات على أنه إذا كان يمكن وقوع أحد الحدثين» ولكن لا يمكن أن يقع 


كلاهما «lee‏ فان احتمال أن أحدهما سيقع هو مجموع الاحتمالين المنفصلين لوقوع كل منهما. إذا 
قذفت Alae‏ — ومن المؤكد أنها لا يمكن أن تظهر وجه الكتابة والصورة في الوقت ذاته — فإن 


احتمال ظهور وجه الصورة shy‏ « وجه الكتابة هو مجموع احتمال أن وجه الصورة سوف يظهر 
واحتمال أن وجه الكتابة سوف يظهر. إذا كانت العملة متزنةء فإن كلا هذين الاحتمالين المنفصلين 
هو النصف» وهكذا فإن الاحتمال الكلي لظهور وجه الصورة ووجه الكتابة هو .١‏ هذا الأمر يبدو 
معقولا تمامًا؛ إذ يتوافق الرقم ١‏ مع اليقين» ومن المؤكد أنه يجب أن يَظهّر وجه الصورة أو وجه 
الكتابة (أفترض أنه لا يمكن أن ينتهي الأمر بوقوف العملة على حافتها!) وبالعودة إلى مثال رمي 
النرد: كان احتمال الحصول على عدد زوجي هو مجموع احتمالات الحصول على Gel‏ من الأرقام 
۲ أو ٤‏ أو 5؛ لأنه لا يمكن أن ab‏ أي من هذه الأحداث Ua‏ (ولا توجد أي طرق أخرى للحصول 
على عدد زوجي برمية واحدة للنرد). 


)£( المتغيرات العشوائية وتوزيعاتها 
رأينا في dail‏ الثاني كيف يمكن استخدام الملخصات الإحصائية البسيطة لاستخراج المعلومات 
من مجموعة كبيرة من قي fai‏ ماء بحيث تكثف المجموعة ليكون توزيع iB‏ سهل eth‏ إن أي 
مجموعة بيانات حقيقية تكون محدودة فى » الحجم؛ فلا يمكن أن تحتوي إلا على Me‏ محدود من 
„aill‏ هذه المجموعة المحدودة قد تمثل قيم كافة الأشياء من النوع الذي نخضعه للدراسة (مثل 


درجات جميع لاعبي دوري كرة القدم في سنة معينة) أو قد تمثل قيم بعض الأشياء فحسب؛ Bl‏ 
إنها «عينة». ورأينا أمثلة على هذا عندما تناولنا مسح العينات. 


العينة هي مجموعة فرعية من «مجموعة القيم « الكاملة الخاضعة للدراسة. في بعض الحالات» 
تكون المجموعة الكاملة غير واضحة التعريف» وربما تكون ضخمة أو حتى لا نهائية؛ لذلك لا 
يكون لدينا خيار اللجوء إلى عينة؛ على سبيل المثال» في تجارب قياس سرعة الضوءء في كل مرة 
Sal‏ فيها القياس أتوقع الحصول على قيمة مختلفة قليلا؛ وذلك ببساطة بسبب عدم الدقة في عملية 
القياس. ويمكنني س على الأقل من حيث المبدأ س المضي قدمًا في أخذ القياسات إلى الأبد؛ وهذا 

يعني أن مجموعة القياسات المحتملة الكاملة لا نهائية. وبما أن هذا أمر مستحيل» يجب أن أرضى 
eee es‏ من اقات وسوف تُستخرّج هذه القياسات من المجموعة الكاملة للقيم التي يحتمل 
أن eas‏ عليها. وفي حالات «o M‏ تكون المجموعة الكاملة محدودة؛ على سبيل المثال» فى 
دراسة للسّمُنة بين الذكور في بلدة معينة» تكون مجموعة الخاضعين للدراسة cba gine‏ ورغم 7 
من حيث المبدأ أستطيع وزن كل واحد منهم في المدينة» ففي الممارسة العملية ربما لن أريد ذلك» 
وسوف أستخدم عينة. ومرة US cc dl‏ قيمة في عينتي مأخوذة من المجموعة الكاملة للقيم 
الممكنة 


فى US‏ من هه ABA‏ كل ii ad gel Le‏ أن )8 كل قان .هق أنه سيكون له قيمة (ye la‏ مجمواعة 
القيم الكاملة الممكنة. ستحدث كل قيمة باحتمال معين» ولكني لا أستطيع أن أحدده أكثر من ذلك» 
وربما لا أعرف ما هو هذا الاحتمال. وبالتأكيد لا أستطيع أن أحدد بالضبط القيمة التي سوف 
أحصل عليها في القياس التالي لسرعة الضوء أو ماذا سيكون وزن الرجل التالي الذي سأقيسه. 


وبالمتل» في رمي النردء أعلم أن النتيجة يمكن أن تكون ١‏ أو ۲ أو E JAY‏ أو 5 أو Ua S‏ 
cà el‏ أن هذه الاحتمالات متساوية (فنردي مكعب مثالي)» ولكن بخلاف ذلك لا أستطيع أن أحدد 
العدد الذي سيّظهّر. وعلى غرار قياسات de pull‏ والوزنء فإن النتيجة عشوائية؛ ولهذا السبب 
(ust‏ هذى المتغير ات وور ات حش و AM‏ 


لتنا من قبل بالفعل مفهومَ المقاييس التجزيئية؛ على سبيل المثال» في حالة المُوَيّاتء ٠١ Giga‏ 
من التوزيع هو القيمة التي يكون 73٠١‏ من قيم البيانات أصغر منهاء cs balls‏ ۸ هو القيمة التي 
يكون ۸ من قيم البيانات أصغر منهاء وهكذا. وعمومًاء SG Gall‏ من العينة أصغر 
منه. ويمكننا تصور تحديد مُوَيّات Ailes‏ ليس للعينة التي نرصدها فحسب» ولكن بالنسبة 
للمجموعة الكاملة من القيم التي يمكننا رصدها. إذا عرفنا ٠١ GZA‏ للمجموعة الكاملة من القيم؛ 
حينها فسنعرف أن القيمة المأخوذة Éil eie‏ من المجموعة الكاملة لديها احتمال ١٠.٠١‏ أن تكون 
أصغر من هذا eal‏ وعموماء إذا عرفنا كل مُوَيّات المجموعة الكاملة» فسنعرف احتمال 
استخراج قيمة في آحر 7٠١‏ أو 775 أو 7١‏ أو 738 أو أي نسبة مئوية أخرى نهتمٌ باختيارها؛ 
وهذا يعني أننا حينها نعرف كل شيء عن توزيع القيم الممكنة التي نستطيع الحصول عليها. لن 
نعرف ما القيمة التالية التي سنحصل عليهاء ولكن سنعرف احتمال أنها ستكون في أصغر /١‏ من 
القيم في المجموعة الكاملةء أو في أصغر ۲ء وما شابه ذلك. 


يوجد اسم لمجموعة مُوَيّات التوزيع الكاملة؛ إذ يطلق عليها اسم «توزيع الاحتمال التراكمي»» وهو 
«توزيع احتمال» لأنه يخبرنا «باحتمال» الحصول على قيمة أقل من أي قيمة نختارهاء وهو 
«تراكمي» لأنه من الواضح أن احتمال الحصول على قيمة أقل من القيمة «س» يزداد كلما زادت 
«س». في مثال أوزان الذكور» لو GS‏ أعرف أن احتمال اختيار das‏ وزنه Ji‏ من ٠١‏ 
كيلوجرامًا هو ۲/۱» فإنني حينها سأعلم أن احتمال اختيار رجل وزنه dil‏ من ۸۰ كيلوجرامًا هو 
أكثر من ۲/١‏ لأنه يمكنني أن أختار من بين كل أولئك الذين يقل وزنهم عن cll ja lS ٠١‏ 
وكذلك أولئك الذين يكون وزنهم بين ٠١‏ كيلوجرامًا و٠۸‏ كيلوجرامًا. وعند الحد الأقصىء فإن 
احتمال الحصول على قيمة أقل من أو تساوي أكبر قيمة في مجموعة القيم الكاملة هو ١؛‏ أي إنه 
حدث مؤكد. 


تتضح هذه الفكرة في الشكل 4-١؛‏ ففي هذا الشكلء us‏ قيم المتغير العشوائي (فكر في الوزن) 
على المحور الأفقي» ويُمثل احتمال القيم الأصغر على المحور الرأسي. ويبين المنحنى احتمال أن 
تكون القيمة المختارة عشوائيًا — بالنسبة لأي قيمة معينة للمتغير العشوائي س أصغر من هذه 
القيمة المعينة. ۰ 


الاحتمال 


قيمة المتغير العشوائى 
شكل :١-5‏ توزيع الاحتمال التراكمي. 


يخبرنا توزيع الاحتمال التراكمي لمتغير عشوائي باحتمال أن تكون قيمة مختارة «diy Us pic‏ 
من أي قيمة أخرى. والطريقة البديلة للنظر إلى الأمور هي أن ننظر إلى احتمال أن قيمة مختارة 
عشوائيًا سوف تقع «بِيْنَ» أي قيمتين معينتين. وتتمثل هذه الاحتمالات على نحو ملائم في سياق 
النطاق الواقع بين قيمتين تحت منحنى «الكثافة» الاحتمالية؛ على سبيل المثال» يبين شكل ۲-٤١‏ 
منحنى «الكثافة الاحتمالية»» ويبين dili‏ (مظللة) تحت المنحنى بين نقطتي »أ« و «C‏ ممثلة 
احتمال أن قيمة مختارة عشو Ul‏ سوف تقع بين »أ« و«ب»؛ وعلى سبيل المثال» عند استخدام مثل 
هذا المنحنى لتوزيع أوزان الرجال في بلدتناء يمكن أن asi‏ احتمال أن daj gi‏ مختار عشوائيًا 
بين 7١‏ كيلوجرامًا و ۸٠‏ كيلوجرامّاء أو أي زوج آخر من القيم» أو فوق أي قيمة نريدها أو تحتها. 
وعلى نحو عام» من المرجح أن تحدث القيم المختارة عشوائيًا في المناطق التي تكون فيها 
الاحتمالية أكثر كثافة؛ أي حيث يكون منحنى الكثافة الاحتمالية في أعلاه. 


كثافة الاحتمال 


j =‏ 
قيمة المتغير العشوائي 
شكل 5-": دالة الكثافة الاحتمالية. 


لاحظ أن المساحة الكلية تحت المنحنى في شكل ١-4‏ يجب أن تكون ١‏ - المتوافق مع اليقين ‏ 
ويجب أن تكون للقيمة المختارة عشوائيًا قيمة «جزئية» منها. 

تمتلك منحنيات التوزيع للمتغيرات العشوائية أشكالا مختلفة؛ فاحتمال أن امرأة مختارة عشوائيًا 
سوف يكون وزنها بين ١‏ کیلوجرامًا و ۸۰ كيلوجرامًا عادة لا يكون هو نفسه احتمال أن رجلا 
مختارًا عشوائيًا سيكون وزنه بين هاتين القيمتين. وربما نتوقع أن منحنى توزيع أوزان النساء 
سيأخذ Lad‏ كبيرة في الأوزان الأصغر مما هي الحال بالنسبة لمنحنى الرجال. 

تمتلك بعض SISSY!‏ أهمية خاصة» وتوجد أسباب عديدة لذلك؛ ففي بعض الحالات» تظهر أشكال 
التوزيعات كنتائج لقوانين الاحتمالات. 

لعل أبسط التوزيعات هو «توزيع برنولي». وهذا التوزيع يمكن أن يتخذ قيمتين فحسب» قيمة لها 
احتمال ٠»‏ مثلاء والأخرى لها احتمال . وبما أنه لا يمكن أن يتخذ إلا قيمتين badd‏ فمن 
«المؤكد» أن إحدى القيمتين سوف تظهر؛ ومن ثمَّ فإن مجموع احتمالات gila‏ النتيجتين يساوي 
.١‏ لدينا بالفعل أمثلة أوضحت لماذا e$‏ هذا التوزيع مفيدًا؛ فالحالات التي لا ينتج عنها إلا نتيجتان 
شائعة جدا؛ مثل قذف العملة التي ينتج عنها Ud‏ وجه الصورة وإمّا وخه الكتابة» وعملية الولادة 
التي تكون نتيجتها إما ذكرًا وإما أنثى. في هاتين الحالتين» تمتلك قيمة ۲/١‏ أو ما يقرب من /١‏ 


OS Y‏ ايوج nS ae‏ فق ig RYE YL‏ التي cs pe lel ami Y‏ نك كار كلمن نعم /لا» 
جيد/سيئ» افتراضي Ej‏ غير افتراضي» انكسار أو عدم انكسار» توقف /حركة»ء وما شابه ذلك. 


يوسع «التوزيع ذو الحدين» توزيع برنولي؛ فإذا قذفنا عملة ثلاث مرات» ربما يظهر وجه 
الصورة مرة أو مرتين أو ثلاث مرات أو لا يظهر أبدا. وإذا كان لدينا ثلاثة موظفين في مركز 
اتصالات يجيبون على نحو مستقل على المكالمات عندما ترذ» فإنه من الممكن أن يكون واحد أو 
اثنان أو الثلاثة مشغولين أو لا يكون ee‏ يخبرنا التوزيع ذو الحدين 
باحتمال حصولنا على كل رقم من هذه الأرقام FER PET‏ ۲ أو ۳. وبطبيعة الحال» فإنه يطبق 
على نحو cole‏ وليس Lib‏ على المجموع الكلي لثلاثة أحداث, فإذا قذفنا عملة مائة مرة» فان 
التوزيع ذا gial‏ يخبرنا Ua‏ باحتمالات GS‏ ستحصيل عل كل مخ ٠ 6... 6Y els‏ وجه 


صورة. 
تصل رسائل xod‏ الإلكتروني إلى جهاز الكمبيوتر الخاص بي عشو AG‏ وتصل خلال العمل 
الصباحي — في المتوسط — Jara Qa)‏ خمس رسائل في الساعة» ولكن عدد الرسائل التي 


تصل في كل ساعة يمكن أن ينحرف عن هذا المعدل على نحو كبير VAs‏ إذ يصل في بعض 
الأحيان عشر رسائلء وفي أحيان أخرى لا تصل أي رسالة. يمكن استخدام «توزيع بواسون» 
لوصف التوزيع الاحتمالي لعدد رسائل البريد الإلكتروني التي تصل في كل ساعة. ويمكن أن 
يخبرنا باحتمال (إذا كانت رسائل البريد الإلكتروني تصل على نحو مستقل وكان المعدل العام 
لوصولها ثابتا) عدم وصول أي رسالةء أو وصول رسالة واحدة» أو رسالتين» وما إلى ذلك. وهذا 
التوزيع يختلف عن التوزيع ذي الحدين؛ لأنه على الأقل من حيث المبدأ لا يوجد حد أعلى للعدد 
الذي يمكن أن يصل في أي ساعة. ففي حالة قذف العملة مائة مرة» لا يمكننا رؤية أكثر من ٠٠١‏ 
وجه صورة» ولكن يمكن أن يصلني (في يوم سيئ للغاية!) أكثر من ٠٠١‏ رسالة بريد إلكتروني 
في ساعة واحدة. 


حتى الآن» كل التوزيعات الاحتمالية التي ذكرتها هي لمتغيرات عشوائية «منفصلة» (أو متقطعة)؛ 
أي إن المتغيرات العشوائية لا تأخذ سوى قيم معينة (قيمتين في حالة توزيع برنولي» عدد من القيم 
يعتمد على عدد مرات قذف العملة/عدد المشعّلين في حالة التوزيع ذي الحدين» والأعداد الصحيحة 
Y Y ١ ce‏ ... في حالة توزيع بواسون). ثمة متغيرات عشوائية أخرى «Ala»‏ (أو 
مستمرة)» ويمكن أن تأخذ أي قيمة من النطاق؛ فعلى سبيل المثال» الطول يمكن أن يأخذ أي قيمة 
a‏ أداة القياس)» > ولا يقتصر› > مثلاء على ٤‏ أو ه أو "5 ad‏ 


إذا كان المتغير العشوائي يمكن أن يأخذ Lad‏ ضمن فترة محدودة فة فقط le)‏ سبيل المثال بين ٠‏ 
و١)‏ وإذا كان «من المحتمل على نحو متساو» أن يأخذ أي قيمة من القيم في تلك الفترة» يقال إنه 
يتبع «توزيعًا منتظمًا»؛ على سبيل المثال» إذا كان ساعي البريد يصل Latha‏ في الفترة من ١‏ 
صباحًا حتى ١‏ صباحّاء ولكن بطريقة لا يمكن التنبؤ بها تماما (فمن المحتمل أن يصل في الفترة 
بين 65 حتى ٠‏ بالقدر Andi‏ لاحتمال وصوله في أي فترة خمس دقائق أخرى على 
سبيل المثال)» فإن توزيع وقت وصوله خلال هذه الفترة يكون منتظمًا 


يمكن لبعض المتغيرات العشوائية أن تأخذ أي قيمة موجبة؛ شأن المدة الزمنية لظاهرةٍ ما على 
سبيل المثال. لتوضيح ذلك» تأمَّلِ الفترة الزمنية التي تظل فيها المزهريات الزجاجية سليمة قبل أن 
تنكسر. المزهريات الزجاجية لا تتقدم في العمرء MA‏ ليس من المرجح بدرجة أكبر أن تنكسر 
المزهرية المفضّلة لديك في العام المقبل إذا كان عمرها Ae‏ سنةء من أن تنكسر في العام المقبل إذا 
كان عمرها ٠١‏ سنوات فقط (في حالة تساوي كل العوامل الأخرى). قارن ذلك مع احتمال وفاة 
شخص يبلغ من العمر ۸٠‏ سنة في العام المقبل في مقابل احتمال وفاة شخص يبلغ من العمر ٠١‏ 
سنوات في العام المقبل. بالنسبة لمزهرية cialaj‏ إذا لم تتحطم في الفترة الزمنية » فإن احتمال 
أن ahai‏ في اللحظة التالية هو الاحتمال cAudi‏ مهما كانت قيمة (مرة أخرى» US‏ العوامل 
الأخرى متساوية). يقال هنا إن عمر المزهريات الزجاجية يتبع «توزيعًا «GSI‏ في call sll‏ توجد 
أعداد هائلة من تطبيقات التوزيعات الأسّيّة» وليس أعمار المزهريات الزجاجية فحسب! 


ولعل الأكثر شهرة بين التوزيعات المستمرة هو «التوزيع الطبيعي» أو «توزيع جاوس». lé‏ 
ما يوصف على نحو عام في سياق شكله العام: «شكل الجرس»» LS‏ هو مبين في الشكل E um.‏ 
وهذا يعني أن احتمال حدوث القيم الموجودة في الوسط أكبر من احتمال حدوث القيم في الطرفين 
البعيدين عن الوسط. يوفر التوزيع الطبيعي تقريبًا جيدا لكثير من التوزيعات التي Gast‏ طبيعيا؛ 
على سبيل المثال» توزيع أطوال عينة عشوائية من الرجال البالغين يتبع توزيعًا طبيعيًا تقريبًا. 


FNERIT al clea BTE SURE I MN RI E 
کر‎ clue le gga Gne (iX. الحذكونة في الفضيل‎ dala y] اساك‎ cia) dial 
وحسبنا‎ cle متكور عينات عشوائية من توزيع‎ ai على‎ RAT a على سبيل المثال» لنفترض‎ 
فإننا نتوقع أن يكون كل متّوسط مختلفا؛‎ c متوسط كل عينة من هذه العينات. بما أن كل عينة مختلفة»‎ 
أي سيكون لدينا توزيع للمتوسطات. وإذا كانت كل عينة كبيرة بما فيه الكفاية» فسيتضح أن هذا‎ 

التوزيع للمتوسطات هو توزيع طبيعي تقريبًا. 


p ا‎ ee ee حر‎ m 
مماثلة على التوزيعات الاحتمالية. فعلى الرغم من أنني ذكرتها كلا على‎ ALG متصلة. وتنطبق‎ 
اعتباره حالة خاصة من التوزيع ذي الحدَّيْن‎ Sa آنفاء فإن الحقيقة هي أن توزيع برنولي‎ saa 
MEA uh ا ا وبالمثل»‎ Cif cs n cite 38 e235 sel) 
ويصبح التوزيع ذو‎ lesb وجا‎ i eels M ويشكّل توزيع‎ cite من التوزيع : ذي‎ 
بالتوزيع الطبيعي كلما زاد الحد الأقصى لعدد الأحداث» وهكذا. وهذه‎ Gad الحدين أكثر وأكثر‎ 
التوزيعات في حقيقتها جزء من وحدة رياضية كاملة متكاملة.‎ 
لقد وصفت التوزيعات السابقة بالقول إن لها أشكالا مختلفة. وفي الواقع» يمكن وصف هذه الأشكال‎ 
على نحو ملائم. فرأيّنا أن توزيع برنولي يتميز بوجود القيمة . وهذا يُخبرنا باحتمال أننا سوف‎ 
معينة. وتتوافق قيم المختلفة مع توزيعات برنولي مختلفة؛ فيمكننا صياغة‎ dati نحصل على‎ 
عن طريق توزيع برنولي مع احتمال ظهور وجه الصورة — — مساويًا‎ Alae نتائج قذف‎ 
لسيارة في رحلة واحدة بواسطة توزيع برنولي مع‎ Gals وصياغة احتمال وقوع‎ «ail 
صغيرة جدًا (كما آمل!). وفي مثل هذه الحالة» تسمى «مَغلمة» (أو بارامترًا).‎ Lad تساوي‎ 


التوزيعات الذي نتحدث عنه. لنرى كيفية ذلك» LES‏ نَعْذْ خطوة إلى الوراء ونتذكر قانون الأعداد 
الكبيرة. ينص هذا القانون على أننا إذا قمنا بملاحظات مستقلة متكررة لحدث له نتيجة A‏ باحتمال 
ونتيجة 8 باحتمال c‏ فإننا يجب أن نتوقع أن نسبة مرات ملاحظة النتيجة A‏ تقترب أكثر 
وأكثر من كلما زاد عدد الملاحظات التي نقوم بها. part‏ هذه السمة بطرق مهمة. فعلى وجه 
الخ هل ele‏ آنه ل As Le Da‏ تدك له as, TAY Geeks basa css‏ يكن 
أن يأخذ أي قيمة من توزيع على مجموعة من القيم؛ على سبيل المثال» ربما يأخذ أي قيمة في 
الفترة [Y ٠٠[‏ ولنفترض أننا LAN)‏ مجموعات من القياسات من مثل هذا التوزيع على نحو 
متكرر. يخبرنا قانون الأعداد الكبيرة أيضًا أنه ينبغي لنا أن نتوقع أن يقترب متوسط القياسات 
من قيمة ثابتة كلما كانت أكبر. وفي cal gl‏ يمكننا تصور زيادة دون حدء وفي هذه الحالة من 
المنطقي أن نتحدث عن متوسط عينة غير محدودة مستمدة من التوزيع؛ بل وحتى متوسط التوزيع 
نفسه. فعلى سبيل المثال» باستخدام هذه الفكرة يمكن أن نتحدث عن متوسط التوزيع الأسّي نفسه 


وليس عن متوسط Aue»‏ مأخوذة من التوزيع الأسي» فحسب. Gi,‏ كما ستمتلك توزيعات 
quce dubia]. any‏ , مدقن ال رات الأسة الميختافة سيوف Pise did‏ 


مختلفة. وحينها يكون المتوسط معلمة للتوزيع الأسي. 


رأينا في مثال سابق أن التوزيع الأسي كان نموذجًا معقولا «لعمر» المزهريات الزجاجية (تحت 
ظروف معينة)» والآن يمكننا أن نتصور أن لدينا مجموعتين من هذه المزهريات؛ مجموعة تتكون 
من مزهريات صلبة مصنوعة من زجاج سميك للغاية» ومجموعة ثانية تتكون من مزهريات هشة 
مصنوعة من زجاج رقيق للغاية. من الواضح أنه في chu giall‏ مزهريات المجموعة الأولى من 
المرجح أن تعيش لفترة أطول من مزهريات المجموعة الثانية. كل مجموعة من المجموعتين لها 
يمكننا تحديد المعلمات الخاصة بالتوزيعات الأخرى على نحو مشابه؛ فنتصور حساب ملخصات 
إحصائية لعينات بحجم لا نهائي مستمدة من التوزيعات؛ على سبيل Shall‏ يمكننا أن نتصور 
حساب متوسطات عينات كبيرة لا نهائية مستمدة من أعضاء الأسرة العادية للتوزيعات. إلا أن 
الأمور أكثر تعقيدًا DUM‏ هنا؛ GY‏ أعضاء هذه الأسرة من التوزيعات لا تتحدّد على نحو فريد 
بواسطة معلمة واحدة؛ فهي تتطلب معلمتين. في الواقع» المتوسط والانحراف المعياري للتوزيعات 
سيكونان كافيَيْنِ؛ إذ سيعملان Les‏ على تحديد أي أعضاء العائلة نتحدث عنه على نحو فريد. 


نقح قانون الأعداد الكبيرة أكثر من ذلك. Cas‏ استخراج العديد من مجموعات القيم من توزيع ماء 
بحيث تكون كل مجموعة بالحجم » واحسب المتوسط لكل مجموعة. حينها ستكون المتوسطات 
نفسها عينة من التوزيع؛ توزيع القيم المحتملة لمتوسط عينة بالحجم . تخبرنا «مبرهنة النهاية 
المركزية» أن توزيع هذه المتوسطات نفسها يتبع تقريبًا توزيعًا طبيعيًاء وهذا التقريب يزداد أكثر 
وأكثر كلما زادت قيمة . في الواقع» إنها تخبرنا أكثر من هذا؛ إذ تخبرنا أيضًا أن متوسط توزيع 
المتوسطات هذا يتطابق مع متوسط المجموعة الكاملة للقيم» وأن التباين في توزيع المتوسطات 
يساوي فقط ضعف حجم تباين توزيع المجموعة الكاملة. ويتضح أن هذا مفيد للغاية في 
الإحصاء؛ لأنه يعني أننا يمكننا تقدير متوسط المجموعة الكاملة بأكبر قدر من الدقة نرغب فيه فقط 
عن طريق أخذ عينة كبيرة بما يكفي (أخذ كبيرة بما فيه الكفاية)؛ حيث تخبرنا مبرهنة النهاية 
المركزية مدى حجم العينة الذي يجب أن نصل إليه لتحقيق احتمال كبير للوصول لهذه الدقة. 
وبشكل أعم» 343 المبدأ القائل بأننا نستطيع الحصول على تقديرات أفضل وأفضل من خلال أخذ 
عينات أكبر مبدأ Gd‏ للغاية. وقد رأينا بالفعل إحدى الطرق التي تستخدم فيها هذه الفكرة على نحو 
عملي حين تناولنا موضوع مسح العينات في الفصل الثالث. 

إليك مثالا AT‏ في ale‏ الفلك» تكون الأجرام السماوية البعيدة خافتة clas.‏ وتكون المشاهدات معقدة 
بسبب التقلبات العشوائية في الإشارات. ومع (MS‏ إذا أخذنا العديد من الصور للجرم نفسه 
وراكبْناها بعضها فوق بعضء فإن الأمر Adi‏ حساب متوسط العديد من القياسات للشيء نفسه؛ 
US;‏ قياس مستمد من التوزيع نفسه ولكن بوجود مكوّن عشوائي إضافي. وباستخدام قوانين 


الاحتمالات المذكورة سابقا يتم التخلص من العشوائية» وتبقى رؤية واضحة للإشارة الأساسية؛ أي 


الفضل الخامس 
التقدير والاستدلال 


الإحصاء هو الفلسفة التطبيقية للعلوم. 


إيه بي ديفيد 


رأينا في الفصل الأول أن الإحصائيات تلعب دورًا مزدوجًا يتمثل في تلخيص البيانات واستخراج 
الاستنتاجات من البيانات» واستكشفنا بعض الأدوات البسيطة لتلخيص البيانات في الفصل الثاني. 
وفي هذا الفصلء وباستخدام مفاهيم الاحتمالات المذكورة في الفصل الرابع» سوف نتناول التقدير 
والاستدلال؛ أي» سندرس طرق تحديد قيمة الكميات التي لا يمكننا ملاحظتها بالفعل» وتقديم إفادات 
عنها. إليك بعض الأمثلة: 
:١ lia‏ لتحديد سرعة ce gall‏ سنقوم بتنفيذ بعض طرق القياس. لا توجد طريقة قياس مثاليةء 
وإذا كررنا هذه العملية فربما سنحصل على قيمة مختلفة قليلا. وتكرار القياس مائة مرة من 
المرجح أن يعطينا مائة قيمة مختلفة قليلًا. وهدفنا إذن هو استخدام هذه العينة من القيم لتقدير 


سرعة الضوء الحقيقية» دون أن يشوبها شائبة من خطأ القياس. 


مثال ؟: في تجربة سريرية عشوائية بسيطة؛ ربما نعطي دواءً جديدًا لعيّنة من المرضى ودواءً 
معياريًا لعينة أخرى. وبناءً على ملاحظات الآثار gal‏ هاتين المجموعتين من المرضى سوف 
نرغب في تقديم إفادة» أو استدلال» حول الفعالية النسبية للدواء الجديد. بعبارة أخرى» نرغب في 
تقدير مدى كبر الفارق في فعالية uel gall‏ الذي قد نتوقعه إذا ÚS‏ قد وصفنا كل elga‏ من 
Cyel gal‏ للمجموعة الكاملة من المرضى الخاضعين للدراسة. وسنرغب أيضًا على نحو مثالي 
في الحصول على بعض المؤشرات حول مدى تقتنا في حجم التقدير. 

مثال ": في دراسة للبطالة في لندن» ستكون مقابلة الجميع غير قابلة للتطبيق؛ لذلك ستجرى 
مقابلات مع عينة من الأشخاص» بهدف استخدام ردود هذه العينة لتقديم إفادة عامة عن لندن 
بأكملها؛ أي إننا نود تقدير البطالة في لندن بأكملها باستخدام بيانات العينة. 


:٤ Quia‏ على نحو أكثر تجريدية» قدمتُ في الفصل الرابع فكرة «مَغلمة» التوزيع. وشاهدنا 
مثال عائلة برنولي من التوزيعات؛ حيث يستطيع متغير عشوائي أن يأخذ القيمة ٠‏ أو ١ء‏ وحيث 
كانت معلمة تعطي احتمال ملاحظة القيمة .١‏ كما رأينا أيضًا مثالا على التوزيع الطبيعيء 
والذي كان يمتلك معلمتين؛ هما الانحراف المعياري والمتوسط. وربما يكون هدفنا هو تقدير 
قيمة هذه المعلمة؛ على سبيل المثال» ربما تدرس عالمة أنثروبولوجيا أطوال مجموعة معينة من 
الأشخاصء وربما تكون مستعدّة لافتراض أن الأطوال de hye‏ طبيعيًاء ولكن لتوصيف التوزيع 
توصيفا GG‏ سوف تحتاج إلى معرفة المتوسط والانحراف المعياري لهذا التوزيع. وربما ترغب 
في استخدام أطوال عينة أشخاص من المجموعة لتقدير المتوسط والانحراف المعياري 
للمجموعة بأكملها. 


Gaye‏ علىّ صديق لي الصفقة التالية: سوف يقذف ihe‏ معدنية على نحو متكرر» وكلما ظهر 
وجه الصورة سوف يعطيني ٠١‏ جنيهات استرلينية» ولكن كلما ظهر وجه الكتابة سوف أعطيه © 


يبدو هذا للوهلة الأولى وكأنه صفقة جيدة بالنسبة لي. فرغم كل شيء» من المعروف جيدًا أنه من 
المرجح على نحو متساو أن تستقر العملة ووجه الصورة أو الكتابة لأعلى (احتمال ظهور وجه 
الصورة Co iun TA‏ أن es‏ استرلينية بقدر احتمال خسارة 


ولكن بعد ذلك ساورثئني الشكوك. لماذا يقدم لي صفقة يبدو أنها في صالحي للغاية؟ Chay‏ أشك في 
أنه ربما عبث بالعملة؛ بحيث يكون احتمال ظهور وجه الصورة في الواقع أقل من النصف. فعلى 
أي حالء إذا كان احتمال ظهور وجه الصورة في الحقيقة ضئيلًا للغاية» بحيث إنه نادرًا ما cg‏ 
يمكن أن تكون الصفقة سيئة بالنسبة لي. لمعرفة هذاء سأرغب في تقدير هذا الاحتمال. عرض 
صديقي — الكريم للغاية ولكنه لا يعرف Úi‏ عن الإحصاء س قذف العملة Cua‏ مرات» حتى 
أستطيع أن أرى الوجه الذي سيَظهّر في كل مرة. وهدفي GA‏ هو استخدام هذه البيانات p^‏ 
احتمال أن العملة ستستقر ووجه الصورة لأعلى في عمليات القذف المستقبلية. 


لنفترض أن Alas‏ خضعت للتلاعب» وأن احتمال ظهور وجه العملة في أي قذفة واحدة كان ۲/١‏ 
فقط . وبما أن قذفات العملة مستقلة بعضها عن بعض (نتيجة القذفة الواحدة لا تؤثر على نتيجة أي 


قذفة أخرى)» فإننا نعلم أن احتمال ظهور وجه الصورة في قذفتين هو ببساطة ناتج ضرب احتمال 
ظهور وجه الصورة في Ul‏ المرتين: .1/١ = ۳/١ x 7/١‏ وبالمثل» بما أن احتمال ظهور وجه 
الكتابة هو (Y/Y = 5/١ - Y‏ فإن احتمال ظهور وجه الصورة متبوعًا بظهور وجه الكتابة 
سيكون حاصل ضرب ۳/۱ EY/Y y‏ وهو 1/5. وعمومّاء بافتراض أن احتمال ظهور وجه 
الصورة في كل قذفة هو 61/1 يمكننا حساب احتمال الحصول على أي تسلسل لوجهّي الصورة 
والكتابة؛ وعلى وجه الخصوصء تسلسّْل ممائل لذلك الذي يظهر في القذفات الست التي رأيناها 
nil‏ على asa‏ المقال» headed) a) as E‏ سنت ca d‏ قدت نات ت 
فان احتمال الحصول على تسلسل متطابق بالمصادفة سيكون IX xX FIN x x ۳/۲ x Y/Y‏ 
x Y‏ ۳/۲ -5١591/1"؛‏ أي تقريبًا Ss YY‏ 


يمكننا بالطريقة نفسها حساب Quis!‏ الحصول على تسلسل ص - ك - ص - لك - لك - ك إذا 
كان احتمال ظهور وجه الصورة في كل قذفة يساوي فعليًا أي قيمة أخرى؛ على سبيل «Sal‏ إذا 
كان احتمال ظهور وجه الصورة ۲/١‏ (ومن ثم فإن احتمال ظهور وجه الكتابة يساوي ”/١ - ١‏ 
»)3/١ =‏ فإن احتمال الحصول على مثل هذا التسلسل هو ۲/۱ ۲/١ x ۲/۱ x ۲/۱ × ۲/۱ x‏ 
7/١ x‏ = ١/15؛‏ أي تقريبًا ٠٠,٠٠١‏ وإذا كان احتمال ظهور وجه الصورة هو ١/١٠ء‏ فإن 
احتمال الحصول على مثل هذا التسلسل يقرب من ١٠,٠٠٠7‏ وهكذا. 


هدفنا الآن هو تقدير احتمال ظهور وجه الصورة في أي قذفة مستقبلية؛ أي إننا نرغب في اختيار 
Y/Y  ةدحاو dnd‏ أو ۲/١‏ أو ٠١/١‏ أو G‏ ما تكون س كتقدير لهذا الاحتمال. وعند النظر إلى 
الحسابات السابقة» نرى أن احتمال الحصول على النتائج المرصودة لست قذفات هو IJ ٠,٠۲۲‏ 
كان الاحتمال الحقيقي لظهور وجه الصورة هو »/١‏ في حين أنه لا يتجاوز ٠,۰٠١‏ إذا كان 
الاحتمال الحقيقي لظهور وجه الصورة هو Y / Y‏ وهو أقل من ذلك س ٠,٠0٠۷‏ فقط ‏ إذا كان 
الاحتمال الحقيقي لظهور وجه الصورة هو .٠١/١‏ ما يعنيه هذا هو أنه من الأكثر am‏ أن 
نحصل على نتائج القذفات الست المرصودة إذا كان الاحتمال الحقيقي هو "/١‏ أكثر مما إذا كان 
0١‏ أو ١/١٠؛‏ ومن تم يبدو من المعقول أن نختار القيمة ۳/١‏ كتقدير وحيد لاحتمال ظهور وجه 
الصورة؛ فهذه هي القيمة التي يرجح أن تسفر عن البيانات التي حصلنا عليها فعلا. 


يوضح هذا المثال طريقة «الإمكانية القصوى» للتقدير؛ إذ نختار قيمة المعلمة التي لديها أعلى 
احتمال لإنتاج البيانات المرصودة. في المثال السابق» حسبت Li‏ هذا الاحتمال all‏ الثلاث 
المرتبطة باحتمالية ظهور وجه الصورة )60/1 qe /Y ٠۲/١‏ ولكن يمكننا جوهريًا حسابها 
Nal adis a‏ 0 ن اخ CHIE gs‏ الم so pos‏ لكل كيار ممكن SY‏ 
ظهور وجه الصورة يطلق عليها اسم Alay‏ الإمكان». وتلعب هذه الدالة دورًا محوريًا في 
الاستدلال الإحصائي. 


a sS‏ حك الحقاول على ee Sl‏ أو أي توزيع 
الواقع بالنسبة لخيارات das di ail‏ المكتلة للمعلية ودر dba daas dccus] RN‏ 


التي ثن” تنتج أكبر الاحتمالات. Lay‏ أن هذه العملية تنتج قيمة واحدة؛ وهي تقدير يكون هو الأفضل 
من ae‏ الإمكانية القصوى. ولأنها قيمة واحدة فحسب» فإنها تسمى «تقدير النقطة». 


ثمة طريقة بديلة للتفكير في هذا النهج للتقدير؛ وهي النظر لدالة الإمكان على أنها مقياس للتوافق 
بين البيانات المرصودة (التسلسل الناتج عن ست قذفات للعملة) والبيانات التي cu‏ بها نظريتنا 
(حيث تعني كلمة «نظرية» هنا القيمة المقترحة لاحتمال ظهور وجه الصورة؛ على سبيل المثال» 
١‏ أو (Y S‏ واختيار النظرية (احتمال ظهور وجه الصورة) لتحقيق أقصى قدر من التوافق ‏ 
أو على نحو مكافئ» لتقليل التناقض — o4‏ معقول على نحو واضح. والتفكير في الأمر بهذه 
الطريقة يسمح Ul‏ بالتعميم؛ إذ يمكننا التفكير في مقاييس أخرى للتناقض؛ على سبيل المثال» في 
كثير من الحالات» يتمثل مقياس جيد للتناقض في مجموع مربعات الفروق بين قيمة المعلمة 
المقترحة وقيم العينة الفردية. واختيار المعلمة للحد من هذا المقياس يعني الحصول على «أفضل» 
تقدير» في سياق أصغر مجموع للفروق المربعة. في الواقع» هذه طريقة شائعة للغاية للتقدير» 
ويطلق عليها — لأسباب واضحة س «تقدير المربعات الصغرى». 


e Lot EN‏ فل دين NN se? GEO‏ كو ان تكو نم هلبه العامة رمتل هذه 
الأفكار قد تأتي من الخبرات أو التجارب السابقة؛ على سبيل iTable i4‏ 
قذف القِطع النقدية» ربما نعتقد أن المعلمة > التي تعطي احتمال أن العملة المقذوفة سوف تظهر 
وجه الصورة» تقترب من CY /Y‏ وأنه من غير المحتمل جدًا أن تكون بعيدة عن .۲/١‏ ونقول إن 
s‏ وور عاق LY‏ يان المعلمة المجهولة تأخذ Lad‏ مختلقة eg‏ نهذ ea yall‏ لمانا Gs‏ 
كال قيمة ال كما هي لل ج اکر SW,‏ ال ES‏ اف ارت ون 
oda (fhe‏ الحالاك Yay‏ من خط Cb‏ مرل اتترا فير لقيمة المعلمة من المتطني 


الجمع بين البيانات وإيماننا السابق لاستخراج «توزيع بعدي» لمعتقداتنا حول القيم المحتملة 
للمعلمة . وهذا يعني أننا نبدأ بتوزيع يصف معتقداتنا حول القيم المحتملة للمعلمة» ونعدّله وفقا لما 


نلاحظه في البيانات؛ على سبيل المثال» توزيعنا القبلي لاحتمال أن العملة ستظهر وجه الصورة 
ربما يكون مركرًا للغاية حول قيمة ١/1؛‏ فنعتقد أنه من المحتمل Vas‏ أن تقترب من .۲/١‏ ومع 
ذلك» إذا قذفت العملة مائة مرة» وظهر في ثلاث مرات فحسب من أصل Alla‏ مرة وجه الصورة 
فربما نرغب في ضبط هذا التوزيع؛ بحيث تعتبر القيم الأصغر للاحتمال أكثر ترجيحًا والقيم 
الأقرب للقيمة ۲/١‏ أقل ترجيحًا. 


في الواقع» نظرية بايز — المذكورة في الفصل الرابع ‏ هي التي WSS‏ من الجمع بين 
المعتقدات القبلية والبيانات المرصودة لإنتاج المعتقدات البعدية. لهذا السبب» يطلق على هذه 
الطريقة للتقدير طريقة «التقدير البايزي». تذكر أن نظرية بايز تربط اثنين من الاحتمالات 
الشرطية: احتمال حدوث «أ» نظرًا لوقوع «ب»» واحتمال حدوث «ب» نظرًا لوقوع «أ». في 
هذه الحالة» تستخدم النظرية لربط احتمال أن be Lad tg) ala‏ 15353 نات التي نلاحظهاء »مع 
da vos‏ هذه اانا :نظا lal Qs xod‏ الاك . ca‏ من هنين 
SC cjut eI‏ نهدو OUR‏ نوا dite dual‏ المفاية .حب بهو اة ANS‏ 


الإمكان؛ ومن ثمَّ تستخدم نظرية بايز إمكانية البيانات لتعديل معتقداتنا Ahal‏ من أجل إنتاج 


Waites‏ الضدنة: 
Vp TR Ton‏ دويق هذى y Ais jl‏ لطر lida $y Sdal) co AY)‏ 
(التي lle‏ ما يُطلق عليها الطرق «التكرارية» أو «الكلاسيكية»)؛ Cus‏ إننا نفترض فيها أن 


المعلمة المجهولة لها قيمة ثابتة ولكنها مجهولة. ومع ذلكء بالنسبة للتقدير البايزيء افترضنا أن 
المعلمة المجهولة لها توزيع عبر مجموعة من القيم الممكنة» مقدم في البداية من خلال التوزيع 
Thal‏ ثم بعد ذلك س عند تحديثه بواسطة المعلومات في البيانات س من خلال التوزيع البغدي. 
ويقر الباحث بأن المعلمة يمكن أن يكون لها قيم مختلفة» ويستخدم التوزيع الاحتمالي للتعبير عن 
معتقده حيال كل قيمة. 


38 ر الخبرة | السابقة ae ahadi‏ ب dd‏ أن يمتلكوا توزيعات قبلية pay Ais‏ 
التضحية di‏ تظاهر بالموضوعية. كما as‏ أيضًا صعوبة عملية؛ ففي حين أن متوسط التوزيع 
الطبيعي والمعلمة في توزيع برنولي لهما تفسيرات واضحة ومباشرة» فليست الحال دائمًا أن 
تمتلك معلمات التوزيعات تفسيرات واضحة. ويمكن أن يكون أحيانًا من الصعب للغاية الوصول 


عند هذه النقطة في شرحنا لطريقة التقدير البايزي وصلنا إلى التوزيع البعدي؛ وهو توزيع يلخص 
اعتقاد الباحث بشأن كل قيمة تأخذها المعلمة بعد رؤية البيانات. ويمكنناء إذا أردناء تقليص هذا 
التوزيع بأكمله لتقدير نقطة واحدة عن طريق استخدام ملخص إحصائي للتوزيع؛ على سبيل «Ql‏ 
يمكننا أن نستخدم المتوسط أو المنوال الخاص به. 


(Y)‏ أي تقدير أفضل؟ 


كيف يمكننا معرفة ما إذا كانت طريقة تقدير النقطة فعالة أم لاء وأي USA‏ هو الأفضل؟ على سبيل 
المثال» بينما قد أختار تقدير متوسط التوزيع باستخدام متوسط عينة مأخوذة من هذا التوزيع» ثمة 
بديل يتمثل في إسقاط أكبر القيم وأصغرها من العينة قبل احتساب المتوسط. وعمومّاء تتسم أكبر 
القيم وأصغرها بالقذر الأكبر من التفاوت من عينة لأخرى؛ لذلك ربما يُنتج التغاضي عنها تقديرًا 
أكثر موتوقية وأقل تفاوتا. 


بالنسبة للطريقة التكرارية للتقديرء والتي تفترض وجود قيمة حقيقية ثابتة 4 — ولكنها مجهولة ‏ 
للمعلمة الجاري تقديرهاء نَوَدُ في الحالة المثالية أن نعرف (d‏ من هاتين الطريقتين تعطي تقديرًا 
أقرب إلى القيمة الحقيقية. وللأسف» بما أن القيمة الحقيقية مجهولة (بيت القصيد هنا هو تقديرها!) 


فلا يمكن أبدَا أن نعرف الإجابة. من ناحية أخرىء ما «يمكننا» أن نأمل في أن نعرفه هو عدد 
المرات التي قد نتوقع فيها أن تكون القيمة المقدّرّة قريبة من القيمة الحقيقية إذا حدث أن كررنا 
عملية Aue AS)‏ من القياسات واحتساب التقدير. فرغم كل شيءء» بما أن القيمة المقدرة تستند على 
عينة» فمن المرجّح أن القيمة المقدرة ستكون مختلفة إذا أخذت عينة مختلفة؛ وهذا يعني أن التقدير 
في a‏ ذاته متغير عشوائي» يختلف من عينة لعينة أخرى. وبما أنه متغير عشوائيء فإن له توزيعًا. 
وإذا علمنا أن هذا التوزيع متجمع بإحكام حول القيمة الحقيقية؛ #فويما تعقو jail 4ay yl‏ طريقة 
جيدة : با cg pal‏ إذا Ch pnt US‏ أن طريقة ما «رعاذة» ها قيقر هن ua‏ يكو WII cy‏ 
القيمة الحقيقية للمعلمة» فربما نعتبرها طريقة جيدة للتقدير. ومع أن هذا لا يُخبرنا Úi‏ عن حالتنا 
المحددة» فإنه سيكون لدينا ثقة في الطريقة على نحو مبرر. فعلى أي حالء إذا كنت على QU ele‏ 
شخصًا ما at Gs‏ | صحيحًا في 111 من كل d ja ٠٠٠١‏ فإنك بالتأكيد ستميل إلى الوثوق به في 
أي حالة معينة. أنت تفعل ذلك مع سائقي القطارات والطيارين والمطاعم» وما إلى ذلك؛ فأنت 
تعرف أن السائق والطيار نادرًا ما يقع في حادث» والمطعم نادرًا ما يقدم طعامًا مسمَّمّاء لذلك تكون 
سعيدًا بالمخاطرة بأنه «في هذه المرة» ستكون الأمور على ما يرام. 


sal ely Abad A3 5 pati طرق‎ apiid Alina alia bac ch la dagli هذا‎ plainly 
هذه المقاييس في «التحيز»» وهذا يُخبرنا بمدى حجم الفارق بين القيمة الحقيقية للمعلمة والقيمة‎ 
المتوسطة لتوزيع القيم المقدرة. وعلى وجه التحديدء إذا كان هذا الفارق يساوي صفرًا (أي إذا كان‎ 

متوسط توزيع القيم المقدرة يساوي القيمة الحقيقية)» يقال إن pall‏ «غير متحيز». 


على سبيل المثال» نسبة ظهور وجه الصورة نتيجة قذف العملة عدة مرات تكون A‏ غير متحيز 
لاحتمال أن العملة ستستقر ووجه الصورة لأعلى؛ إذ إن القيمة المتوسطة لتوزيع هذه النسبة في 
التجارب المتكررة تساوي الاحتمال الصحيح لظهور وجه الصورة. وللتوضيح» افترض | 
الاحتمال الحقيقي لاستقرار العملة ووجه الصورة لأعلى هو 0,55؛ وهو أمر مجهول بالنسبة لناء 
و Cf‏ كفنا الا 5e‏ .مر AN) a osi gto‏ هن طروق gyal aat‏ وه الور وا 
تسفر القذفات العشر عن ست مرات لظهور وجه الصورة؛ وهي نسبة تبلغ ٠٠,‏ أو ثلاث مرات؛ 
وهي نسبة تبلغ ٠,۳‏ أو خمس مرات؛ وهي نسبة تبلغ 0.5. وهكذا. وفي المتوسط (متوسط 
يُحسب من خلال تكرارات خيالية للقذفات العشر) ستكون النسبة GY ٠,55‏ نسبة ظهور وجه 
الصورة هي مُقدّر غير متحيز لاحتمال أن العملة سوف تستقر ووجه الصورة لأعلى. 


وعمومّاء المقدر ذو التحيز الكبير لن يُنظر إليه على نحو مفضل مثل المقدر غير المتحيز. وفي 
المتوسط» من خلال تكرار 64a pail‏ فان المقدر ذا التحيز الكبير سوف يسفر عن قيمة مختلفة كثيرًا 
عن القيمة الحقيقية. 

ثمة مقياس آخَّر لتحديد جودة المقدر هو «متوسط مربع الخطأ»؛ فبالنسبة لأي قيمة مقدّرة معينة 
يمكننا ‏ إذا عرفنا قيمة المعلمة الحقيقية  cibus‏ مربع الفارق (أي «مربع الخطأ») بين 
التقدير والقيمة الحقيقية. التربيع مُفيد لسبب واحد؛ وهو أنه يجعل كل الأرقام موجبة. وبما أن 
التقدير نفسه متغير عشوائي يختلف من عينة لعينة أخرىء فإن مربع الخطأ هو أيضًا كذلك. Lary‏ 


أنه متغير عشوائيء فإن لديه توزيعًاء و«متوسط» مربع الخطأ ببساطة هو متوسط هذا التوزيع. 
ومتوسط as yo‏ الخطأ الصغير ؛ ني يعني أن في المتوسط س Gye‏ الفارق بين القيمة المقذرة 
والقيمة الحقيقية صغيرٌ. ولا SES‏ إلى الثقذر الذي يُعرّف أن لديه متوسط مربع خط كبيرًا بنظرة 
مفضّلة مثل ذلك الذي لديه متوسط مربع Und‏ صغيرٌ؛ إذ لن ب يثق المرء كثيرًا في أن قيمته قريبة 
من القيمة الحقيقية. 


(Y)‏ 2335 الفترة 
عندما تناولنا بعض الملخصات الإحصائية الأساسية بالدراسة في الفصل الثاني» رأينا أنها تلخص 
على نحو جيد Xue lia‏ من القيم عن طريق متوسطها أو ملخص إحصائي وحيد آخرء ولكن هذا 
ترك الكثير مما هو مرغوب فيه. وتحديداء فشلت هذه الملخصات في إيضاح مدى انتشار قيم العينة 
حول هذا المتوسط. وعالجنا هذه Sa‏ من enis UIA‏ المزيد من الملخصات الإحصائية مثل 

المدى والانحراف المعياريء والتي أشارت إلى مدى تشتت قيم العينة. 


ينطبق المبدأ نفسه على التقدير. حتى الآن تناولنا تقديرات النقطة» وهي تقديرات تتمثل في قيمة 
EC qud es‏ وبديل ذلك هو تقديم مجموعة من القيم — أي «فترة» — 

في أنها تحتوي على القيمة الحقيقية. دعنا نَعْذ إلى صفقة العشرة/الخمسة جنيهات التي عرضها 
Liew o‏ سابقًا للوصول إلى أفضل تقدير وحيد لاحتمال أن قذفة ah‏ ستظهر وجه 
الصورة. بدلا من ذلك» يمكن أن نسعى للوصول إلى مجموعة من القيم التي GE‏ في أنها تشمل 
الاحتمال الحقيقي. ريغا IECUR‏ أن تكن :وائقين للخاية في أن NOE‏ يكفن كين EEIN‏ 
o‏ « مثلا. وهذا Ua‏ على «تقدير الفترة». 


iut و ا ا ل ل إذا كانت‎ d ws 
من كا حددنا التحيز 0 تقدير‎ qi clie باستخدام‎ 
الفترات على نحو صحيح» فمن الممكن أن نقول إن‎ cuni الفترة لكل عينة من هذه العينات» وإذا‎ 
سبيل المثال 7955 أو 733 أو ما نختار) تشمل القيمة الحقيقية‎ le) نسبة معينة من الفترات‎ 
المجهولة.‎ 


SY اليقين إن أي فترةٍ معينة» محسوبة‎ Stee لايع أن الكو ل‎ Viens Te إلى‎ el 
Ol, Dee a eer بيانات معينة»‎ Auc 
Zao ما نختار) من الفترات متك ري على اكه اح دن وبما أن‎ d) 745 يمكننا القول إن‎ 

من الفترات سوف تحتوي على القيمة الحقيقية» فإننا يمكن أن نثق على نحو كبير أن الفترة الواحدة 
التي حسبناهاء استنادًا إلى العينة التي حصلنا عليها Ga) Ded‏ ك دص - ك اك ك في 
المثال) ستشمل القيمة الحقيقية؛ ولهذا السبب» تسمى هذه الفترات «فترات الثقة». 


بالتحول إلى طرق التقدير البايزي» رأينا أن نتيجة التحليل البايزي هي توزيع 52 كامل للقيم» 
وهذا التوزيع يخبرنا بقوة اعتقادنا في أن المعلمة لديها أي قيمة معينة. يمكن أن نترك الأمور عند 
هذا الحد؛ فعلى سبيل المثال» إذا كان للتوزيع انحراف معياري صغير فإن هذا يعني أننا كنا على 
ثقة كبيرة بأن dad‏ المعلمة تكمن في نطاق ضيق. لكن في بعض الأحيان» من المريح vast‏ 
الأمور بطريقة مماثلة لفترات الثقة أعلاه» وتقديم فترة محددة بأكبر وأصغر قيمة؛ على سبيل 
المتال» يمكننا إيجاد فترة تحتوي على 290 من المساحة الموجودة تحت التوزيع الاحتمالي البعدي 
داخلها. وبما أن التوزيعات تمتلك درجة من تفسير المعتقدء فإن هذه الفترات يمكن تفسيرها على 
أنها تعطي احتمال أن القيمة الحقيقية تكمن في داخلها. ولتمييزها عن فترات الثقة التكرارية» تسى 
هذه الفترات «فترات المصداقية». 


)£( الاختبار 


sig‏ الإحصائيون عبارتي: «اختبار الفرضية» و «اختبار الدلالة» لوصف عمليتي استكشافي ما 
إذا كانت المعلمات في النموذج تأخذ قيمًا محددة أو تقع في نطاقات معينة. وزيا رحني ذلك في 
أبسط مستوياته اختبار معلمة واحدة فحسب؛ على سبيل المثال» يمكن أن نعرف أن 83 من 
المرضى الذين يعانون من مرض معين يتعافؤن بتناول العلاج المعياري» وقد نخمن أن m‏ 
علاج جديد مقترح يشفي AAs‏ من هؤلاء المرضى. المعلمة الوحيدة التي نهتم باختبارها هي نسبة 
الشفاء بالنسبة للعلاج الجديد» S ia s‏ أن نعرف ما إذا كانت ZA‏ بدلا من Jo‏ 


من الحقيقي أن الناس مختلفون؛ فهم يختلفون من حيث العمر والجنس واللياقة البدنية وشدة المرض 

والوزن ومجموعة من الأشياء الأخرى؛ وهذا يعني أنه حتى عندما يتناول أشخاص متمائلون 

الجرعة نفسها من الدواء نفسهء فإن الاستجابة تختلف؛ فريما يُشفى البعض ولا يشفى البعض 

الآخر. وفي الواقع» من الممكن للغاية أن تختلف استجابة المريض نفسه في الأوقات المختلفة 

وتحت الظروف المختلفة. النموذج المعقول لهذه الحالة ربما يتمثل في أن أي مريض يتناول دواءً 

لديه احتمال للشفاء. وفي متثالناء نعلم أن في ظل العلاج المعياري» ونظن أن 
في ظل العلاج الجديد. 


في هذه المرحلة» لمعرفة النسبة التي تشقى عن طريق الدواء الجديدء فإن ما نود القيام به هو 
إعطاء الدواء الجديد لمجموعة المرضى بأكملها الخاضعة للدراسة» تحت كل الظروف الممكنة» 
ونرى النسبة التي تشفى. هذا مستحيل على نحو واضح» وما يتعين علينا القيام به هو إعطاء el gall‏ 
لعينة من المرضى وحسب» ويمكننا بعد ذلك حساب نسبة الشفاء في العينة. on‏ تين 
مع عينة فحسب» وليس جميع المرضىء فإن مجرد حقيقة شفاء ۰ — على سبيل المثال — من 
العينة أو Te‏ أو ٠‏ أو أي نسبةء لا تعني بالضرورة أن هذه النسبة ستشفى في مجموعة 
المرضى بأكملها. فإذا أخذنا عينة مختلفة» فسنحصل على الأرجح على نتيجة مختلفة. 


ومع ذلك فإن العينة المأخوذة من مجموعة يُشفى فيها عمومًا +10 فقط من المرضى Bale‏ ما تكون 
نسبة الشفاء فيها أقل من العينة المأخوذة من مجموعة تبلغ نسبة الشفاء فيها “7٠١‏ من المرضى. 

وهذا يعني أننا يمكن استخدام حد ‏ مثلا — بحيث لو لاحظنا أن نسبة الشفاء في العينة أقل من 
سوف نرجح فرضية *0/0 وإذا لاحظنا نسبة clad‏ في العينة أكبر من ٠‏ فسوف نرجح فرضية 
٠‏ وفي الحالة God‏ نقول إن إحصائيات العينة تقع في «منطقة الرفض» أو «المنطقة 
الحرجة»؛ حيث إن نسبة الشفاء للعلاج المعياري 


2 قد «رفضت». 


بالقيام بذلك» فإننا نخاطر بالوقوع في أحد نوعين من الأخطاء؛ فقد نقرر أن الدواء الجديد يشفي 
من المرضى في مجموعة المرضى الخاضعين للدراسة بأكملهم في حين أنه في الحقيقة 
يشفي al 25٠‏ أو قد نقرر أن الدواء الجديد يشفي 75٠‏ من المرضى في مجموعة المرضى 
الخاضعين للدراسة بأكملهم في حين أنه في واقع الأمر يشفي Z^.‏ تر Aib cadi Anise a‏ 
«نيمان-بيرسون» لاختبار الفرضية الأمورّ بحيث يكون احتمال الوقوع في كلا هذين النوعين من 
الأخطاء معروفاء وصغيرً! بما فيه الكفاية ليعطينا ثقة في النتائج. 


إليك كيفية عمل ذلك: نبدأ بوضع افتراض؛ إذ نفترض أن الدواء الجديد يشفي wp NAE‏ 
المرضى» ويسمى هذا الافتراض «فرضية 4 العدم». تنص فرضية BET TES‏ «الفرضية البديلة» 
عل الدواء الجديد يشفي ٠‏ من المرضى. باستخدام حسابات الاحتمال الأساسية نتمكن من 
معرفة نسبة العينات التي سوف ebi‏ نسبة elid‏ س عن طريق المصادفة س أكبر من أي 
مختارة» إذا كان افتراض /5٠‏ (فرضية العدم) aaa‏ .وغادة Le‏ تخار بحيث إنه إذا كانت 
فرضية العدم حقيقية» فإن ZO‏ أو /١‏ فقط من المرات تتجاوز نسبة الشفاء في العينة 


في هذه الحالة» عندما تكون فرضية العدم حة حقيقية (أي إذا كان 0 فقط من المجموعة الخاضعة 
TRETEN REN‏ ا ع شفاك في کر مما يؤدي بنا 
إلى اتخاذ قرار لصالح نسبة الشفاء الكلي البالغة 17٠١‏ فربما نكون واقعين في النوع الأول من 
الأخطاء المذكورة آنفا (وهو ما يسمى تقليديًا «خطأ من النوع الأول»). وعادة ما يستخدم الرمز 
لتمثيل احتمال حدوث خطأ من النوع الأول. ويعني اختيارنا لقيمة في المثال أن ثابتة 
لدينا عند ١,٠65‏ أو ١‏ أو أي قيمة نختارها. 
di‏ لاحظنا نسبة شفاء في العينة أكبر من » حينها إما أن تكون فرضية العدم حقيقية (النسبة 
الحقيقية البالغة (X0.‏ ويكون Gras‏ ذو احتمال ضعيف (معدل العينة أعلى من dissi due‏ 
) قد وقع» أو تكون فرضية العدم غير حقيقية. هذان هما الاحتمالان الوحيدان الممكنان» وهذا 
هو جوهر طريقة نيمان-بيرسون لاختبار الفرضية؛ فعن طريق اختيار بحيث يكون صغيرًا 


Ly‏ فيه الكفاية (ويعتقد عمومًا أن ٠,٠٠ y ٠,٠١‏ صغيران Ley‏ فيه الكفاية)» نشعر على نحو معقول 
ا ee Se ee‏ عن مرجع 


Ul‏ النوع الثاني من الأخطاء (يسمى بطبيعة الحال «خطأ من النوع الثاني») LAL‏ عندما تكون 
الفرضية البديلة حقيقية (نسبة >۸٠‏ في المثال)» ولكن نسبة الشفاء المرصودة في العينة أقل من 
Ly‏ أننا اخترنا للسيطرة على احتمال الوقوع في الخطأ من النوع الأولء لا يمكننا أن نختار 
Usi‏ للسيطرة على احتمال الوقوع في الخطأ من النوع الثاني. ومع ذلك» يمكننا أن نجعل احتمال 
الوقوع في الخطأ من النوع الثاني صغيرًا كما نشاء عن طريق أخذ عينة كبيرة بما يكفي. وهذا 
مرة ة أخرى هو تأثير قانون الأعداد الكبيرة؛ فزيادة حجم العينة يقلل من نطاق التفاوت في تقدير 
العينة؛ ومن Sb‏ يقلل من احتمال أن يكون تقدير العينة QE‏ من عندما تكون القيمة الحقيقية 
للمجموعة الخاضعة للدراسة بأكملها أعلى؛ أي عند قيمة LA‏ وبالتحديد» من خلال جعل العينة 
كبيرة بما يكفي يمكننا أن نقلل مِن احتمال حدوث الخطأ من النوع الثاني إلى أي قيمة نراها 
مناسبة. عادة ما يُستخدّم الرمز لتمثيل احتمال حدوث الخطأ من النوع الثاني» ويستخدم مصطلح 
«القوة» لتمثيل ؛ وهو احتمال اختيار الفرضية البديلة عندما تكون حقيقية. 


إن ceca ji uiid Cii pa‏ ا رر Cii gal api Ua‏ في Sell‏ كيت in fh‏ في ch Ayla‏ 
uud usto ee ig ce dio dos basa E o aid‏ على 
شخص بريء بأنه مذنب (النوع الأول) أو الحكم على شخص مذنب بأنه بريء sill)‏ & الثاني). 
gs ag RLY‏ حاون قري jy gi duin ae AY ugar aci s e‏ 3 
البديلة T‏ «اختبار الدلالة»» تخضع فرضية العدم فقط للاختبار؛ Carella‏ هو «رفض» فرضية 
العدم إذا كانت القيمة الإحصائية الخاضعة للاختبار (نسبة الشفاء في العينة في المثال السابق) 
Ley data,‏ فيه الفا Voc‏ يمكن dag‏ .في ظل hua A‏ العدم» أو «الفشل في رفضها» إذا لم تكن 
القيمة متطرفة للغاية. فلا توجد أي فرضية بديلة مذكورة بوضوح. ويستخدم المصطلح «قيمة « 
لوصف احتمال أن نرصد قيمة إحصائية خاضعة للاختبار متطرفة مثل تلك المرصودة i‏ في الواقع, 
ار اکر bs‏ إذا كانت فركية Aids pal‏ 


وُضعت فكرتا فرضية العدم واختبار الدلالة من أجل مجموعة كبيرة من المشاكل؛ فثمة اختبارات 
معينة طوّرت وسُمّيت في كثير من الأحيان باسم أحد مطوّريها الأصليين Jie)‏ اختبار calls‏ 
واختبار مان ويتني)» أو سُمّيت GAB‏ بتوزيع الإحصائية المعنية الخاضعة للاختبار (مثل اختبار » 
واختبار مربع كاي). 

ei;‏ اختبارات الفرضيات البايزية ‏ ظاهريًا على الأقل ‏ أكثر وضوحًا؛ GH‏ مبرهنة بايزء 
لدينا احتمالات بعدية gh‏ كل فرضية حقيقية؛ ومن ثم نستطيع استخدامها لاختيار إحدى الفرضيات. 
وفي الممارسة العمليةء فإن الأمور في بعض الأحيان تكون أكثر تعقيدًا. 


)6( نظرية القرار 


وصفت على نحو غير رسمي «الاختبار» بأنه معرفة ما إذا كانت معلمات نموذج تتخذ قيمًا معينة 
أو تقع ضمن نطاقات معينة. وهذا وصف جيد لكثير مما يدور في أي سياق علمي؛ فالهدف هو 
اكتشاف كيف تسير الأمور. ولكن في سياقات أخرىء مثل التجارة أو الطب على سبيل المثال» فإن 
الهدف Sale‏ ليس مجرد اكتشاف قيمة المعلمات» ولكن الهدف هو التصرف وفق ما نحصل عليه 
من معلومات. فنريد أن ننظر إلى er ce dd‏ ا EE‏ أفضل 
مسار للعلاج» وذلك باستخدام البيانات الناتجة byi‏ يعني مصطلح «أفضل» 45S eus‏ $ مختلفة cå‏ 
ولكن على نحو نظريء فإننا سوف نرغب في تعظيم الفائدة أو الربح أو «المنفعة»» أو على نحو 
مكافئ» تقليل التكلفة أو الخسارة. إذا كنا نستطيع تحديد «دالة منفعة» مناسبة» محدّدين ما سيكون 
المكسب إذا Gab‏ كل فعل بينما تأخذ الحقيقة غير المعروفة كل قيمة من قيمها الممكنة» يمكننا عندئذٍ 
مقارنة «قواعد اتخاذ القرارات» المختلفة؛ أي الطرق المختلفة للاختيار بين الأفعال؛ على سبيل 
المثال» ربما نختار قاعدة اتخاذ القرار التي تزيد من الحد الأدنى للمكاسب التي يمكن جلبهاء مهما 
كانت الحقيقة غير المعروفة. SESS‏ من :ذلك Cds: Casa ESS)‏ إطار بايزي؛ ومن ثم كان لدينا 
توزيع بعدي للاحتمالات عبر الحالة غير المعروفة للحقيقة» يمكننا حساب متوسط قيمة الربح لكل 
قاعدة MAS‏ قرارء واختيار القاعدة ذات أكبر قيمة للمتوسط. 


إليك مثالا على ذلك. ربما ترغب شركة ما في معرفة Gi‏ مسار للعمل — إرسال رسالة أم إجراء 
مكالمة هاتفية ‏ هو الأكثر فعالية في تشجيع عملائها على شراء أحدث منتجاتها. سيكون من غير 
الواقعي أن نتصور أن الإجراء نفسه سيكون أكثر فعالية لجميع أنواع العملاء؛ فسيستجيب بعض 
العملاء على نحو أفضل للرسالة» وسيستجيب البعض أفضل للمكالمة الهاتفية» ولكننا لا نعرف 
الوسيلة الأفضل لكل عميل. ولكن ربما تمتلك الشركة بيانات حول كل عميل؛ وهي المعلومات التي 
قدّمها العميل عندما اشترى منها لأول مرة؛ البيانات التي تصف مشترياته السابقة» وما شابه ذللك, 
باستخدام هذه البيانات» يمكننا صياغة قواعد لاتخاذ القرارء والتي تُخبرنا بأمور مثل M».‏ كان 
العميل يبلغ من العمر أقل من «ale T‏ ولديه نمط سابق من المشتريات العادية ai‏ بإجراء 
«مكالمة هاتفية»؛ وخلاف ذلك aa‏ بإرسال «الرسالة».» ويمكن صياغة العديد من قواعد اتخاذ 
القرار المحتملة تلك. وبالنسبة لكل إجراء س مكالمة هاتفية أو رسالة س فإننا نستطيع تقدير 
الربح» ربما حتى من الناحية النقدية» إذا قمنا بهذا الإجراء واتضح أن العميل من النوع الذي 
يستجيب (أو لا يستجيب) جيدًا لهذا الإجراء؛ ومن ثم يمكن أن نختار قاعدة اتخاذ القرار التي deai‏ 
الحد الأدنى للربح أكبر. أو يمكننا حساب متوسط توزيع العملاء من كل نوع» لإنتاج متوسط ربح 
لكل قاعدة اتخاذ قرارء ثم اختيار القاعدة التي تؤدي إلى أكبر متوسط ربح. 


)1( إذن أين نحن الآن؟ 


كان الاستدلال الإحصائي على مر السنين موضع جدل كبيرء وأحيانًا كان الجدل محتدمًا للغاية. 
وعلى الرغم من أن طرق الاستدلال المختلفة تؤدي بالفعل أحيانًا إلى استنتاجات مختلفة» فإن 


التجارب تبيّن أن الاستخدام البالغ الدقة لهذه الأساليب عن طريق إحصائيين يفهمونها جيدًا يؤدي 
U gac‏ إلى استنتاجات متشابهة. هذا كله e ja‏ من فن تطبيق الإحصاء ويدل على أن إجراء التحليل 
الإحصائي ليس مجرد ممارسة آلية للرياضيات؛ فهو يتطلب فهمًا للبيانات وخلفياتهاء وكذلك فهمًا 
Ula‏ لنظرية الاستدلال الأساسية. 


تضع المدارس المختلفة للاستدلال الإحصائي درجات متفاوتة من التركيز على عدد من المبادئ 
المختلفة. ومن أمثلة هذه المبادئ «مبدأ الإمكان» (إذا امتلك نموذجان من النماذج المختلفة دالة 
الاحتمال نفسهاء فإنه ينبغي أن يؤديا إلى النتائج نفسها)» و«مبدأ أخذ عينات متكررة» (ينبغي تقييم 
الإجراءات الإحصائية على أساس كيف ستتصرف «في المتوسط» إذا طبقت على العديد من 
العينات المتكررة)»› c‏ و«مبداً الكفاية» (المعني بتلخيص البيانات بحيث يتم إيقاء معلومات كافية 
لتقدير أي معلمة). يبدو كل مبدأ من هذه المبادئ معقو لا تمامّاء ولكنها ربما تتعارض أحيانًا. 


كانت الأساليب التكرارية الكلاسيكية لسنوات عديدة هي الطرق الأكثر استخدامًا في الاستدلال» 
ولكن اكتسبت الأساليب البايزية شعبية كبيرة ف في السنوات الأخيرة. كان هذا نتيجة مباشرة لتطوير 
أجهزة الكمبيوتر القوية وأساليب الحوسبة الذكية» Shad‏ عن الترويج بحماس لمثل هذه الأساليب 
من قبل مؤيديها؛ فالعلوم تُمارّس في سياق اجتماعي» والجوانب الإنسانية المتعلقة بكيفية انتشار 
وتراجع هيمنة الأفكار المختلفة للاستدلال على مدى العقود القليلة الماضية تعد قصة رائعة. 


ثمة نقطة أخيرة؛ آمل أن أكون قد أوضحت في هذا الفصل أن هناك جوانب مختلفة للاستدلال. 
وتحديداء ربما نكون مهتمّين بمحاولة العثور على إجابات لأنواع مختلفة من الأسئلة. وتشتمل هذه 
الأسئلة على أسئلة مثل: بم تخبرني البيانات؟ وماذا ينبغي عليّ أن Gash‏ به؟ وماذا ينبغي أن أفعل؟ 
وما إلى ذلك. وتتلاءم طرق الاستدلال المختلفة مع الأنواع المختلفة من الأسئلة. 


الفصل السادس 
النماذج والأساليب الإحصائية 


أفضل شيء في كون المرء إحصائيًا هو أنه يستطيع اللعب في الفناء الخلفي للجميع. 
جون دبليو توكي 


)1( النماذج الإحصائية: وضع اللبنات Ua‏ 


استخدمث التعبير «نموذج إحصائي» في أماكن مختلفة في هذا الكتاب حتى الآن دون تحديد ما 
أعنيه. النموذج الإحصائي هو تمثيل أو وصف بسيط لشيء أو نظام يخضع للدراسة. وربما 
ينطوي النموذج البسيط للغاية على جانب واحد فحسب من الطبيعة. وفي الواقع» رأينا أمثلة على 
ذلك في الفصل الرابع عندما تناولنا توزيعات المتغيرات المفردة. وعمومّاء يمكن بالفعل أن تكون 
النماذج الإحصاتية مفصّلة للغاية؛ إذ ربما تحتوي على آلاف المتغيرات المرتبطة بطرق معقدة 
للغاية. ule‏ سبيل المثال» سوف يستخدم الاقتصاديون الذين يحاولون توجيه قرارات أي بنك 
مركزي مثل هذه النماذج الكبيرة. 


ثمة منظور مهم Led‏ يخص النماذج يتمثل في التساؤل ما إذا كانت هذه النماذج ن تمثل الواقع 
الأساسي على نحو صحيح؛ أي ما إذا كانت «حقيقية» al‏ لا. في الواقع» هذا هو المنظور الذي 
اتخذناه سابقا في هذا الكتاب عندما سألنا ما إذا كانت قيمة المعلمة المقترحة هي القيمة الحقيقية أم 
لا. ومع ذلك» يقر المنظور الأكثر تطورًا أنه لا يوجد نموذج س إحصائي أو غير ذلك — يمكن 
أن يأخذ في الاعتبار كل التأثيرات والعلاقات الممكنة في العالم الحقيقي. وهذا المنظور هو الذي 
دفع الإحصائي البارز جورج بوكس للتأكيد على أن «جميع النماذج «Abus‏ وإن كان بعضها 
مفيدًا.» إننا نبني نماذج لسبب؛ وهو مساعدتنا في الفهم والتنبؤ واتخاذ القرارء وما إلى ذلك. ورغم 
أننا ندرك أن نماذجنا تمثل تبسيطا ضروريًا للتعقيد الرهيب للعالم» > فإننا إذا ما اخترناها جيدا 
فسوف تمكننا من القيام بهذه الأمور. أما إذا اخترناها على نحو سيئء فلن caii‏ وسوف iai‏ 
tas‏ ووت TUN CPC‏ إذن» هدفنا هو بناء نماذج جيدة بما فيه الكفاية لتحقيق 
غرضنا. 

ويمكن تقسيم النماذج الإحصائية على نحو ملائم إلى نوعين› úle (lend‏ «النماذج «ANI‏ 
و«النماذج التجريبية». Aun‏ النموذج الآلي على بعض النظريات الأساسية الصلبة لكيفية ارتباط 
الأشياء؛ ن لارا کر oe‏ ها في Gal‏ كرف أن n3 he haute ys‏ 


مع زيادة الزمن الذي تقع فيه. أو ربما تخبرنا نظرية أخرى حول كيفية انتشار العقاقير في clad)‏ 
الجسم. في UIS‏ هاتين الحالتين» سوف تستند النماذج إلى نظريات حول كيفية عمل الأشياء فعليًا؛ 
في الواقع» سوف anas‏ النماذج على المعادلات الرياضية التي تصف هذه النظريات» والبيانات 
التي نجمعها لتقييم نماذجنا سوف تكون uui‏ المتغيرات المستخدمة في هذه النظريات» مثل السرعة 
والزمن (في حالة سقوط الشيء) والتركيز والزمن (في حالة انتشار العقاقير)؛ ومن ثمَّ النماذج 
الآلية هي طرق رياضية مباشرة لوصف النظريات. 


في المقابل» النماذج التجريبية هي مجرد محاولات لتوفير ملخصات ملائمة للجوانب المهمة من 
البيانات المرصودة. قد لا يكون لدينا أي نظرية تقول إن الأجسام الساقطة تزيد سرعتها مع مرور 
الزمن» ولكننا قد نلاحظ وجود علاقة بين الزمن cde pully‏ وعلى أساس هذاء نُخمّن وجود علاقة 
طردية. وإذا لم يوجد أي قاعدة نظرية أساسية لهذه العلاقة المقترحة» فإن النموذج يكون نموذجًا 


النماذج الآلية واسعة الانتشار في العلوم الفيزيائية وفي مجالات مثل الهندسة» فيما تميل العلوم 
الاجتماعية والسلوكية إلى الاستفادة على نحو أكبر من النماذج التجريبية. ومع ذلك فمن الواضح 
وجود تداخل كبير؛ M‏ إن طبيعة النموذج تعتمد على ما يجري diali‏ ومدى سهولة فهمه؛ 
فالاقتصاد — الذي deh‏ علمًا اجتماعيًا — مليء بالنماذج الآلية المعتيدة على نظريات حول كيفية 
ارتباط العوامل الاقتصادية. وعمومّاء ربما من الإنصاف القول إنه في المراحل الأولية لاستكشاف 
ظاهرة ماء فإن النماذج التجريبية تكون أكثر شيوعًا؛ إذ إن المرء يبحث عن الاتساق والأنماط في 
مجموعة الملاحظات. وفي مراحل لاحقةء عندما يكون الفهم قد ازدادء تصبح النماذج الآلية أكثر 
أهمية. وعلى أي حال» كما توضح نماذجنا للأجسام الساقطة» يمكن بناء نموذج معين على أنه 
نموذج تجريبي ثم يصبح Ú‏ عندما يزداد فهمنا للظاهرة. 


أحياتا ما يكون من المفيد التمييز بين مختلف الاستخدامات الممكنة للنماذج الإحصائية. أحد أمثلة 
هذا التمييز يكون بين «الاستكشاف» و«التأكيد»؛ ففى الاستكشاف» نبحث عن العلاقات أو 
الأنماط؛ بينما في التأكيد» نهدف إلى معرفة ما إذا كانت البيانات تدعم تفسيرًا مقترحًا أم لا؛ لذلك: 
على سبيل المثال» في دراسة استكشافية ربما نبحث عن المتغيرات التي ترتبط Us‏ ارتباطا وثيقا. 
المتغيرات Lad‏ متشابهة Ie‏ مع أشياء مختلفة» وما إلى ذلك. من ناحية أخرى» ربما نستخدم 
البيانات في الدراسات التأكيدية لتقدير معلمات نموذج إحصائي مقترح وإجراء اختبار إحصائي 
لمعرفة ما إذا كان التقدير قريبًا بما فيه الكفاية مما توقعته نظريتنا. أصبحتٍ الأساليب الإحصائية 
لاستكشاف البيانات GIS‏ أهمية متزايدة في السنوات الأخيرة» مع تراكم مجموعات من البيانات 
أكبر وأكبر. وينطبق هذا على التطبيقات العلمية (مثل فيزياء الجسيمات وعلم الفلك)» وكذلك 
التطبيقات التجارية (مثل قواعد البيانات التي تحتوي على تفاصيل المشتريات من المتاجر» أو 
المكالمات الهاتفية» أو بيانات تدفق النقر على الإنترنت). 


ثمة تمييز آخر مهم في النمذجة الإحصائية بين «الوصف» و«التنبؤ»؛ tind‏ وصف مجموعة من 
البيانات» يتمثل الهدف في تلخيصها بطريقة مريحة؛ على سبيل المثال» إذا كانت مجموعة البيانات 
تتكون من ملاحظات لعشرة متغيرات (الطول والوزن والزمن المستغرق في التوجه chall‏ وما 
إلى ذلك) لكل شخص من مليون شخصء فسنحتاج لكي نبدأ في فهمها إلى تقليل حجمها إلى حجم 
معقول؛ على سبيل المثال» يمكننا تلخيصها من خلال المتوسط الحسابي والانحرافات المعيارية لكل 
متغيرء وكذلك عن طريق قياسات مدى ترابطها. حينها سيكون لدينا بعض الأمل في فهم ما يجري 
حيث إننا وصفنا الخصائص العامة للبيانات على نحو مريح. وبالإشارة إلى هذاء كما رأينا في 
الفصل الثاني» فإن هذه الملخصات الوصفية لا تخلو من المخاطر. فإنهاء بحكم طبيعتهاء las.‏ 
التعقيد الهائل لمجموعة البيانات بأكملها؛ لذلك يجب أن ننتبه لاحتمال أنَّ وصفنا الموجز أغفل Úi‏ 
مهمًا؛ على سبيل المثال» ربما فشل نموذجنا في الوضع في الاعتبار حقيقة وجود مجموعتين 
وراثيتين متميزتين في المجموعة الكاملة الخاضعة للدراسة؛ لذلك يلزم وجود نموذج أكثر تفصيلا 
لتمثيل ذلك. 


أما هدفنا في التنبؤ فهو استخدام بعض المتغيرات للتنبؤ بقيم متغيرات أخرى؛ على سبيل المثال» قد 
يكون لدينا مجموعة من البيانات التي تبيّن تفاصيل النظام الغذائي à‏ فى الطفولة لعينة من الأشخاص 
وطولهم بعد البلوغ. Lisa‏ باستخدام هذه البيانات بناء نموذج i‏ الطول بعد البلوغ بالنظام 
الغذائي في الطفولةء ثم نستخدم النموذج للتنبؤ بالطول المستقبلي المحتمل لطفل يتبع نظامًا غذائيًا 
Ges‏ لاحظ أن Galal EL‏ من البيانات aly‏ لهذه النماذج؛ 3 إننا تجتاج لقم لكل :من المتغير نت 
المتنبّئة والمتغير المتنبًاً به من عينتنا. وسوف يتضح أن هذا تمييز مهم Mae‏ بين النماذج التنبئية 
والنماذج الوصفية» كما سنرى فيما يلي: 


ومرة أخرىء ليس التمييز واضحًا دائمًا وضوح الشمس» فربما نكون ببساطة مهتمّين بوصف 
للتنبؤ بأحدهما عن طريق الآخر. 


يوجد نوع آخر مهم من التنبؤ هو «التوقع», وفيه تسيتخدع ils‏ من:الماضي eal‏ تمودج يمكن 
استخدامه كأساس للتنبؤ بالقيم المحتملة لملاحظات لم ترصد they‏ على سبيل المثال» ربما نفحص 
النمط الشهري لمبيعات أجهزة التلفاز على مدى السنوات الخمس الماضية» ونقدّر ic y GY aid‏ 
المبيعات والتفاوت Slew «à si IS) Dei aed ea‏ المحتملة خلال الاثني عشر شهرًا التالية. 


للنماذج الإحصائية استخدامات أخرى أيضًا . تعرفنا سريعًا على دورها في اتخاذ القرار في الفصل 
الخامس» كما رأينا أيضًا في الفصل Aue‏ كيف قدّرت معلمات التوزيعات. يتم ذلك عن طريق 
تحديد مقياس للتناقض بين البيانات المرصودة والتوزيع النظري» ثم اختيار قيمة المعلمة المقدّرة 
التي تقلل قياس التناقض لأدنى حد. ويستمد مقياس شائع للتناقض من الإمكان» والذي يقيس مدى 
احتمال أن بيانات مثل البيانات المرصودة ستنشأ إذا أخذت المعلمات Vad‏ مختلفة متعددة. والآن» 
بما أن التوزيعات هي أشكال بسيطة فحسب من النموذج» فإن المبادئ نفسها بالضبط تنطبق عند 


تجربة نماذج أكثر تفصيلا (مثل تلك المذكورة فيما يلي). ومع ذلك» LAG‏ ظاهرة غريبة بينما تصبح 
النماذج أكثر تفصيلا. 


سأذكر مثالا بسيطًا للتوضيح؛ لنفترض أننا نريد بناء نموذج للتنبؤ بالرواتب الأولى للخريجين» 
استنادًا إلى البيانات التي صف دراستهم» والمواد التي درسوها في الجامعة» ونتائج امتحاناتهم: 
وأيضًا عوامل مثل العمر والجنس ومكان الإقامة» وما إلى ذلك. افترض أننا جمعنا عينة مكونة من 
مائة من الخريجين الجدد وجمعنا البيانات منها. cla gece‏ إذا حاولنا أن نبني توقعاتنا على عدد قليل 
Éa‏ من المتغيرات (مثل العمر فقط) فإننا لن نحصل على تنبؤات Aids‏ للغاية؛ فالعمرء في حد 
ذاته» وحده لا يحتوي على معلومات كافية للسماح لنا GL‏ نعرف كم سيكون راتب الشخص 
المتخرّج في الجامعة بدقة متناهية. لتحسين دقة التنبؤ فإننا بحاجة إلى إضافة المزيد من العوامل 
المتنبّئة (مثل استخدام العمر ومجال الدراسة ودرجات الامتحان للتنبؤ براتب الشخص المتخرج). 
ومع ذلك - وهنا تبرز المعضلة — إذا أضفنا عددًا أكبر مما يلزم من المتغيرات المتنبّئة فإن دقة 
التنبؤ للمجموعة الكاملة الخاضعة للدراسة ستقل؛ فعلى الرغم من أننا نستخدم مزيدًا من المعلومات 
حول الخريجين» فإن نموذجنا ليس جيدا. 


يبدو هذا مناقضًا للمنطق؛ فكيف يمكن لإضافة «مزيد» من المعلومات أن تؤدي إلى تنبؤات 
«أسوأ»؟ 


الجواب مراوغ» ويُطلق عليه أسماء مختلفة» منها الاسم المُعبّر «الإفراط في المطابقة». لفهم ذلك 
دعنا نتراجع خطوة إلى الوراء ونتدبر هدفنا الحقيقي. إن هدفنا «ليس» الحصول على أفضل 
التنبؤات الممكنة للخريجين المائة في عيّنتنا؛ فنحن نعلم بالفعل رواتبهم الأولى» ولكن هدفنا هو 
الحصول على أفضل c3 sal‏ الممكنة بالنسبة للخريجين الآخرين؛ أي إن هدفنا هو «التعميم» من 
العينة الموجودة لدينا. والآن» بإضافة المزيد والمزيد من المتغيرات المتنبّئة» فإننا بالتأكيد نضيف 
gi RENE PITE‏ انك EEE‏ الموجودين في عينتنا بالفعل على نحو أكثر 
دقة. ولكن العينة ليست سوى عينة؛ أي إنها لا تمثل رواتب المجموعة بأكملها على نحو كامل. 
وبعد فترة من الوقت» وبينما نواصل إضافة المزيد من المتغيرات المتنبئة» نبدأ في التنبؤ بجوانب 
من البيانات خاصة بالعينة وحدها؛ فهي ليست سمات تنطبق على المجموعة الكلية بأكملها. 


تنطبق هذه الظاهرة على جميع النماذج الإحصائية؛ فالنماذج يمكن أن تكون مفرطة في التعقيدء 
بحيث تتطابق مع البيانات المرصودة جيدًا جدًا بالفعل» ولكنها تفشل في التعميم على أشياء أخرى 
مستمّدة من التوزيع نفسه؛ وهذا يعني أنه لا بد من وضع استراتيجيات لاختيار نماذج بدرجة تعقيد 
مناسبة؛ فإذا كانت النماذج مفرطة lau]‏ فإننا نخاطر بفقدان قدرتها على التنبؤء وإذا كانت 
مفرطة التعقيد» فإننا نخاطر بالإفراط في المطابقة. يشكل هذا المفهوم أساس مبدأ «شفرة «als jl‏ 
الذي ينص علي أن «النماذج ينبغي yl‏ تكون أكثر تعقيدا مما هو ضروري» (ينسب إلى الراهب 
الفرنسيسكاني ويليام الأوكامي من القرن الرابع عشر). 


ولمشكلة الإفراط في المطابقة أهمية خاصة في مجال علم الإحصاء الحديث؛ فقبل ظهور أجهزة 
الكمبيوترء وقبل أن ب يشبح مالز فا Sail Aida‏ > المعقد مع aac]‏ كر من السات كن خطر 
الوقوع في الإفراط في الا al‏ 


(Y)‏ الأساليب الإحصائية: تطبيق الإحصاء 


الهدف من هذا الجزء هو تحديد بعض الفئات المهمة من الطرق الإحصائية» وإظهار كيفية ارتباط 
بعضها ببعض» وتوضيح أنواع المشاكل التي يمكن استخدامها لحلها. 


لنبدأ بالإشارة إلى أننا نهتم في كثير من الأحيان بالعلاقات بين أزواج المتغيرات. هل خطر 
الإصابة بالنوبات القلبية يزداد مع زيادة مؤشر كتلة الجسم؟ هل الاحترار العالمي ناتج عن النشاط 
البشري؟ هل إذا ارتفعت البطالة ينخفض التضخم؟ هل تحسين مزايا السلامة في السيارة يزيد 
مبيعاتها؟ وما إلى ذلك. إذا كان متغيران مرتبطين بحيث إن القِيّم الأكبر لأحدهما تميل إلى الارتباط 
بالقيّم الأكبر للآخرء يقال إن المتغيرين «مرتبطان إيجابيًا». وإذا كانت القيم الأكبر لأحدهما تميل 
إلى الارتباط بالقيم الأصغر للآخرء يقال إنهما «مرتبطان سلببًا». والطول والوزن لدى البشر 
مرتبطان إيجابيًا؛ فالأشخاص الأطول يميل وزنهم إلى أن يكون أثقل. لاحظ أن العلاقة ليست 
علاقة دقيقة؛ إذ يوجد أشخاص طوال القامة أخفاء الوزن (الأشخاص (GEM‏ وأشخاص قصار 
القامة ثقال الوزن. ولكن في المتوسط عمومًاء يرتبط طول القامة بالوزن الأثقل. يمكننا أيضًا أن 
نرى من هذا المثال أن محض الارتباط بين متغيرين لا يعني أن أحدهما يسبب الآخر؛ فإلزام 
ع m mM‏ ار 
ee aE An ea‏ غير المرجح أن يزيد وزنه. في الواقعء كان 
غينة xd aes‏ من الأطفال الذين کر اوح Jas]‏ هم بون :© Ras Wg‏ وود ا 
بين القدرة على القراءة والقدرة على القيام بعمليات حسابية. ولكن من غير المرجح أن تسبب 
إحداهما الأخرىء بل المرجح أن التقدم في العمر هو السبب الشائع لكلتيهما؛ فالأطفال الأكبر Ga‏ 
أفضل في القراءة والحساب. 


ثمة رقم واحد (Sy‏ استخدامه لتمثيل قوة الارتباط» وهو «معامل الارتباط». ويوجد العديد من 
الطرق التي يمكن قياس هذه القوة بهاء Ui‏ مثلما رأينا أنه توجد طرق مختلفة لتعريف 
«المتوسط» و«التشتت». ومع ذلك» يوجد معيار عام لمعاملات الارتباط بأنها تقع بين ١-‏ و+١؛‏ 
بحيث يعنى ٠‏ أنه لا deli as‏ ويعنى ١+‏ وجود ارتباط إيجابي cali‏ ويعني ١-‏ وجود ارتباط 
سلبي تام. ويعني الارتباط «التام» بين متغيرين «س» و«ص» أنك إذا كنت تعرف قيمة «س» 
فإنك تعرف قيمة «ص» بالضبط. 


الارتباط علاقة متناظرة ò‏ فإذا كان الطول يرتبط بالوزن» فإن الوزن يرتبط بالطول» وقوة هذا 
الارتباط تظل نفسها مَهْمَا كانت الناحية التي ننظر إليها منها. وفي المقابل» نهتم في بعض الأحيان 
بالعلاقات غير المتناظرة بين المتغيرات؛ على سبيل المتال» ربما نرغب في معرفة مقدار الفرق 
في الوزن — في المتوسط — الذي يرتبط بوجود فارق في الطول يبلغ عشرة سنتيمترات. 
والإجابة على هذا النوع من الأسئلة تأتي من خلال طريقة إحصائية تسمى «تحليل الانحدار». 
ويخبرنا نموذج الانحدار بمتوسط قيمة المتغير «ص» لكل Lad‏ للمتغير «س». في المثال السابق» 
«انحدار الوزن على الطول» سيخبرنا بمتوسط الوزن الذي سيصل إليه الأشخاص عند كل طول. 
ويتضح هذا في الشكل €T‏ حيث diy‏ الوزن على المحور الرأسي؛ والطول على المحور 
الأفقي. وتوضح كل نقطة سوداء زوج الوزن/الطول لشخص من العينة. يبدو واضحًا الآن من هذا 
الشكل أننا لم نرصد Lag‏ لجميع الأطوال الممكنة؛ على سبيل المثال» لا يوجد أي نقطة بيانات عند 
الطول الذي يبلغ بالضبط ٠‏ أقدام. إحدى طرق التغلب على هذه الصعوبة ‏ بناء نموذج Uha‏ 
متوسط وزن لكل قيمة من الطول س هي أن نفترض وجود علاقة بسيطة بين الطول ومتوسط 
الوزن. وهذه العلاقة البسيطة lip‏ هي علاقة خط مستقيم؛ bgy‏ مثال لهذا الخط في الشكل. 
وبالنسبة لأي طول معينء يسمح Gl‏ هذا الخط بالبحث عن القيمة المقابلة من متوسط الوزن؛ فعلى 
سبيل المثال» وعلى وجه التحديد» فإنه يعطينا قيمة لمتوسط وزن الأشخاص الذين يبلغ طولهم T‏ 
أقدام. 


وثمة عدة نقاط ينبغي توضيحها فيما يخص هذه الطريقة. 


۰ احجار 


الوزن 


الظول 


أولا: إنها تعطي «متوسط» الأوزان عند كل طول. وهذا أمر معقول؛ إذ إنه في الحياة الواقعيةء 
حتى الأشخاص ذوو الطول نفسه يمكن أن تتباين أوزانهم. 

ثانيًا: نحن بحاجة إلى إيجاد طريقةٍ ما لتحديد الخط الذي نتحدث عنه بالضبط. يتضمن الشكل خطا 
dial,‏ ولكن كيف اخترنا هذا الخط وليس غيره؟ تتحدد الخطوط على نحو فريد عن طريق 
مَعلمتين — تقاطعهما (في هذا الشكل قيمة الوزن التي يتقاطع عندها hal‏ مع محور الوزن) 
وميلهما — لذلك نحن بحاجة إلى إيجاد وسيلة لاختيار هاتين المعلمتين أو تقديرهما. نعرف بالفعل 
طريقة تقدير المعلمة؛ فقد تناولناها في الفصل الخامس. ولتقدير المعلمات نختار تلك القيم التي تقلل 
من قدر التناقض بين النموذج والبيانات المرصودة. وبالنسبة لأي زوج معين (الوزن والطول) من 
البيانات» فإن as}‏ مقاييس التناقض هو مربع الفرق (مرة أخرىء السبب في كونه مربعًا هو dea‏ 
الأرقام موجبة) بين الوزن المرصود والوزن المتوقع عند هذا الطول. ويتمثل مقياس التناقض 
الكلي المعتمد على هذا في مجموع مربعات الفروق بين الأوزان المرصودة والأوزان المتوقعة 
عند الأطوال الواردة في البيانات. وبعد ذلك نقدر التقاطع والانحدار باختيار تلك القيم التي تقلل 
مجموع مربعات الفروق لأدنى درجة. وبما أنها تقلل (مجموع مربعات) الفروق بين القيم 
المرصودة والمتوقعة للأوزان في البيانات» فإن «خط انحدار المربعات الصغرى» هذا ينتج أفضل 
تنبؤ لمتوسط الوزن عند أي قيمة للطول نختارها. 

النقطة الثالثة: هي أنه على الرغم من أن هذا الافتراض بوجود علاقة خط مستقيم قد يبدو اعتباطيًا 
إلى cle Bs‏ فإنه مُبرّر قليلا. از خط ما dl‏ خط ss‏ دوم الخوض في 
التفاصيل هناء من الممكن تقديم منحنيات بدرجات متفاوتة بحيث يمكن أن يكون للخط الذي يبين 
العلاقة بين الطول ومتوسط الوزن أشكال أكثر تعقيدًا؛ فربما على سبيل المثال يزداد بسرعة أكبر 
عند الأطوال الأدنى من ازدياده عند الأطوال الأعلى. ونفعل ذلك من خلال جعل النموذج أكثر 
hii‏ عن طريق إدخال معلمات إضافية بالإضافة إلى التقاطع والميل. 


سعى مثال انحدار العلول الوزن s sies‏ الوزن من eS‏ ي و احد د هو الول 
ea ^‏ اسم wi dM 3 oe cuui d‏ 
Xt WO un OR SA de ee iced) um‏ 
باعتباره Vana Dale‏ ويمكننا مواصلة تضمين متغيرات أخرى نظن أنه من المرجح أن ترتبط 
بالوزن. لكن لا ينبغي أن نتمادى كثيرًا إذا كانتِ الملاحظات تتعلق بعدد محدد من الأشخاص 
فحسب» وإلا فسوف يتميز نموذجنا مرة أخرى بالإفراط في المطابقة مع البيانات؛ ولذا فإننا قد لا 
نرغب في تضمين كافة المتغيرات التي يمكن أن نفكر فيهاء وإنما ندرج وحسب مجموعة فرعية 
منها. 

ile iia‏ ثمة أسباب أخرى أيضًا قد تدفعنا إلى الرغبة في تضمين مجموعة فرعية hä‏ من 
المتغيرات المتنبئة المحتملة؛ على سبيل المثال» ربما يكون قياس المتغيرات المتنبئة الإضافية 
مكلقاء j‏ ترق Uià I, gb BE,‏ سورت 3j‏ أن ax] is‏ عند أدنى حد ممكن. لهذه 


الأسباب وغيرهاء طور الإحصائيون طرقا للعثور على مجموعات فرعية جيدة من المتغيرات؛ 
حيث تعني كلمة «جيدة» أنها تنتج أفضل التنبؤات. 


عي See eS‏ أو na Eon UN‏ اع 
al ONE‏ لعن TUNE ER BN‏ ل «OA‏ في «تحليل البقاء» tux:‏ هة 
مقف الإجابة chi cw an‏ ويُعرف bd‏ أن gag‏ لحالات ral‏ وز هه abi G‏ 
على نحو أكثر شيوعًا (على الرغم من أنه ليس في هذه الحالة وحسب) عندما يكون متغير الإجابة 
فترة زمنية؛ ومن (S‏ فإننا قد نرغب في معرفة الفترة الزمنية التي سيظل فيها المريض على قيد 
الحياة (ومن هنا جاء اسم هذه التقنية) أو طول الفترة الزمنية التي سيبقى فيها مكون من النظام قبل 
أن يحتاج إلى الاستبدال. وبأخذ الحالة الأولى كمثال للتوضيح» Lay‏ تبيّن مجموعة البيانات 
المتوفرة لدينا أن أحد المرضى عاش خمسة أشهرء وعاش آخر شهرين Li‏ وعاش ثلاثة آخرون 
أحد عشر شهرًاء وهكذا. ومع ذلك» ربما لم نتمكن لأسباب عملية من الانتظار حتى يموت آخر 
ميض في dal pall‏ (الفارة التي كد نسل coll‏ عو لذلك توقفنا عن تسجيل الملاحظات. كل ما 
نعرفه عن د بعض المرضى هو أنهم عاشوا فترة «أطول» من الوقت بين بدء رصد الملاحظات 
والتوقف ieee‏ توصف هذه البيانات بأنها «مبتورة»» ولتوضيح التعقيدات التي تسببهاء 
Jabs‏ طريقة حساب متوسط فترة البقاء على قيد الحياة؛ قلجساب chu giall‏ نحتاج إلى جمع الفترات 
الزمنية المرصودة والقسمة على العدد الموجود. إننا لم نرصد في الواقع فترات البقاء على قيد 
الحياة للمرضى المبتورة بياناتهم» ولا يمكننا تضمينهم في الحساب. ولكن إذا أغفلناهم» فإننا سوف 
Jii‏ على وجه التحديد القيّم الأكبر؛ لذلك سوف يكون تقديرنا متحيزًا إلى الأسفل. وعلى النقيض» 
إذا caa laua‏ باستخدام فترات الملاحظة» فإن النتيجة تعتمد على وقت اختيارنا للتوقف عن رصد 
الملاحظات. وبما أن هذا غير ملائم Ley‏ فقد ضعت أساليب أكثر تطورًا للتعامل مع البيانات 
المبتورة. 


ثمة نسخة أخرى من مشكلة وجود متغير ناتج واحد مرتبط بواحد أو أكثر من المتغيرات المتنبئة 
تحدث في «تحليل التباين». يستخدم هذا التحليل على نطاق واسع في مجال الزراعة وعلم النفس» 
ومراقبة الجودة الصناعية والتصنيعء وغيرها من المجالات. في تحليل التباين» تكون المتغيرات 
Mr Nu uM M‏ كاد Ste ee‏ 

بعض المواد الكيميائية ربما نكون قادرين على السيطرة على درجة الحرارة والضغط rally‏ 
Colac! AD tual oy Sa,‏ لكل منيا؛ متخفضة ومتومطة وإعالية. Gli‏ مكل هذا Lai Cà gall‏ 
ناقشنا التصميم التجريبي في الفصل Cu)‏ وغالبًا ما يستخدم تحليل التباين لتحليل التجارب. 
ورغم تقديمه عادة على أنه مختلف عن تحليل الانحدار» فإنه من الممكن إعادة صياغته في صورة 
نموذج انحدار . وكلاهما حالتان خاصتان من فئة أكبر من النماذج تسمى «النماذج الخطية». 


erty‏ النماذج الخطية نفسها بطرق مختلفة. أحد التعميمات المهمة للغاية يتمثل فيما يسمى 
«النماذج الخطية المعمّمة». في الانحدار وتحليل التباين» يكون الهدف هو التنبؤ بالقيمة المتوسطة 


للإجابة عند كل dad‏ عامل متنبئ. وتوسّع النماذجٌ الخطية المعممة هذا من خلال السماح بكون 
غيرها من معلمات توزيع الإجابة» وليس المتوسط chid‏ خاضعة للتنبؤ. 


مع ذلك» تظهر نسخة أخرى من بنية الناتج/المتنبئ عندما تكون الإجابة نفسها قاطعة؛ على سبيل 
المثال» ربما تكون الإجابة عبارة عن قائمة من التشخيصات الطبية الممكنة» وربما تكون العوامل 
المتنبئة مزيجًا من الأعراض (قد تكون مدرجة على أنها حاضرة أو غائبة) ونتائج التحاليل الطبية. 
وتندرج هذه الأساليب تحت اسم عام هو «التصنيف المراقب». وتحدث الحالة الخاصة الأهم من 
Lente publ ola‏ بكرن HALE Ula) tle‏ أي M,‏ فمن qas‏ ف [iii ya dia‏ 
(Qua‏ مخاطرة جيدة/مخاطرة cAi‏ مربح/عديم الجدوى» الكلمة المنطوقة «نعم »/الكلمة 
المنطوقة «Y»‏ (في برامج التعرف على الكلام )» بصمة مصرح بها/يصمة غير مصرح بها cst)‏ 
أنظمة المقاييس الحيوية للتعرف على الأشخاص)» صفقة احتيالية/صفقة شرعية؛ وما شابه ذلك. 
وفي كل حالء فإن الهدف سيكون بناء نموذج يُمكننا من تحديد الفئة الأكثر احتمالا للحالات 
الجديدة» مستخدمًا فحسب المعلومات في المتغيرات المتنبئة. 


طور عدد كبير من الأدوات الإحصائية لمثل هذه الحالات. وكان من بين أول الأدوات «تحليل 
التمايز الخطي »»› الذي طور في ثلاثينيات القرن العشرين» ولكنه لا يزال مستخدمًا على نطاق 
واسع للغاية حتى اليوم» سواء بشكله الأساسي أو بتو سيعاته الأكثر تفصيلا. وتوجد طريقة أخرى 
تحظى بشعبية كبيرة في بعض المجالات س (Ra‏ الطب وإدارة Aa‏ العْمَلاء س هي «تحليل 
التمايز اللوجستي». وهذا نسخة من الانحدار اللوجستي» وهو نوع من النماذج الخطية المعممة؛ 
لذلك يظهر الصلة الوثيقة بين طبقات الأدوات. في call sll‏ يمكن اعتبار ,الانحدار اللوجستي أبسط 
أنواع «الشبعات العصبية». تسّی الشبكات العصبية بهذا الاسم لأنها قدّمت في الأصل كنماذج 
لطريقة عمل المخ؛ إلا أنه في الوقت الحاضر تركز العمل في هذا المجال VS‏ على خصائصها 
الإحصائية كنظم للتنبؤء بغض النظر Lee‏ إذا كانت تشكّل نماذج جيدة abill‏ الطبيعية أم لا. 


وتوجد نماذج أخرى للتصنيف المراقب تشمل أسلوب «التصنيف الشجري» وطريقة «الجار 
الأقرب». يقسّم النموذج الشجري المتغيرات إلى نطاقات» ويصنف نقاطا جديدة Úis‏ لمجموعة 
النطاقات التي تقع فيها. على سبيل المثال» GN dues jel be)‏ أن الأشخاص الذين uh‏ 
أعمارهم عن ۰ Úle‏ ويعيشون نمط حياة قاب قليل الحركة ولديهم مؤشر ABS‏ جسم أكبر من YO‏ 
معوّضون لخطر الإصابة بأمراض القلب. مثل هذه النماذج يمكن أن hed‏ في صورة بنية شجرية؛ 
ومن هنا جاءت التسمية. في أسلوب الجار الأقرب» aad‏ الكائنات القليلة الموجودة فى مجموعة 
البيانات التي تكون أكثر شبهًا (أو «أكثر قربًا») إلى الكائن الجديد الخاضع للتصنيف؛ حيث يتحدّد 
التشابه من ناحية المتغيرات المتنبّئة. بعدها يوضع الكائن الجديد ببساطة في الفئة نفسها كما هي 
حال غالبية هذه الكائنات المتشابهة كثيرًا. 


ويسمى التصنيف المُراقب بهذا الاسم لأنه يحتاج شخصًا (أي («Gi yay‏ لتحديد تسميات فئات Aue‏ 
البيانات» والتي يمكننا من خلالها بناء قاعدة التصنيف لتطبيقها على الكائنات الجديدة. ومع ذلك Y‏ 
يوجد في مسائل التصنيف الأخرى أي تسمية للفئات» والهدف هو ببساطة تقسيم الكائنات إلى فئات 


casu‏ أو Lary‏ فئات ملائمة. ويمكننا القول إن الهدف من ذلك هو تحديد الفئات؛ ففي الطب على 
سبيل المثال» ربما تكون لدينا Aue‏ من المرضى لكل منهم تفاصيل عن أنماط الأعراضي ونتائج 
CES‏ ل ل r‏ ل سيكون هدفنا حينها 
ويطلق MS‏ الأدوات الإحصائية لاستكشاف هذه التجمعات اسم «التحليل QT‏ كان a‏ 
الأساليب فائدة كبيرة في تحديد الفرق بين الاكتئاب الأحادي القطب والثنائي القطب» وتستخدم في 
مجموعة كبيرة من المجالات cg AY)‏ منها س على سبيل Qual‏ س إدارة قيمة العملاء 
والتسويق؛ حيث تكمن فائدتها في تحديدٍ ما إذا كان يوجد أنواع مختلفة من العملاء أم لا. 


في التحليل العنقوديء لا يوجد متغير «ناتج» ولا «إجابة». بدلا من ذلك» فإن الهدف هو مجرد 
وصف البيانات على نحو سهل. وثمة أدوات إحصائية أخرى لها الهدف نفسه؛ على الرغم من أنها 
تسعى إلى وصف من نوع مختلف تمامًا؛ فعلى سبيل المثال» «النموذج البياني» هو وصف مبسط 
للعلاقات بين dae‏ متغيرات س وربما aac‏ كبير منها س استنادًا إلى افتراض أن العلاقات بين 
العديد من المتغيرات تسببها علاقات وسيطة مع متغيرات أخرى. وقد رأينا مثالا يسيطا a‏ على 
هذا ÓL‏ فربما كان الارتباط الإيجابي بين القدرة على القراءة والقدرة الحسابية لدى الأطفال 
نتيجة للعلاقة بين كلا هذين المتغيرين والعمر. 


يمكن التوسع في هذه النماذج من خلال افتراض أن بعض العلاقات سببها المتغيرات «الكامنة» 
غير المقيسة التي تتعلق ببعض المتغيرات المرصودة؛ ومن ثمَّ تحفز علاقة واضحة بينهما؛ فعلى 
سبيل المثال» ربما نلاحظ أن أسعار أسهم بعض الشركات ترتفع أو تنخفض lee‏ إحدى طرق 
تفسير هذا قد تتمثل في تخمين وجود بعض المتغيرات الخفية (بعض جوانب الاقتصاد على سبيل 
المثال) التي ترتبط JS‏ سعر؛ ومن تم تحفز العلاقة بين هذه الأسعار؛ فعندما يزيد المتغير الخفيء 
ترتفع كل الأسعار. تشكل هذه الأفكار أساس نماذج «التحليل العاملي»»› وغالبًا ما ony‏ المتغير 
الكامن exl‏ «العامل الكامن». كما أنها تشكل أساس «نماذج ماركوف المخفية»» والتي ÉS Led‏ 
سلسلة قيم مرصودة في سياق حالات خفية للنظام؛ على سبيل المثال» المرضى الذين يعانون من 
بعض الأمراض يتفاوتون من حيث جودة الحياة» فأحيانًا ينتكسون Lal s‏ يُشفؤن على نحو مؤقت. 
ويمكن نمذجة هذا التعاقب في سياق الحالات الأساسية المتغيرة. 

إذا كانت أساليب التصنيف سُمّيت Was‏ بأنواع المسائل المصمّمة لحلهاء فقد سميت أساليب أخرى 
Gas‏ بطبيعة البيانات التي تعمل عليها؛ على سبيل المثال» أساليب «تحليل السلاسل الزمنية» تعمل 
على السلاسل الزمنية؛ أي الملاحظات المتكررة للمتغير أو المتغيرات نفسها على مدار تسلسل 
زمني. وهياكل البيانات تلك موجودة في كل مكان؛ فهي توجد في الاقتصاد (مثل قياسات التضخم 
والناتج المحلي الإجمالي والبطالة)» والهندسة» والطب (مثل وحدات العناية المركزة)» وفي كثير 
من المجالات الأخرى. وفي تحليل السلاسل الزمنية» ربما يكون هدفنا هو فهمهاء أو تحليلها إلى 
مكوناتها الرئيسية (مثل النزعة والموسمية)» أو رصد متى يتغير سلوك النظام» أو رصد الحالات 
الشاذة (مثل التنبؤ بالزلازل)» أو توقع القيم المستقبلية المحتملة» أو من أجل مجموعة من الأسباب 
الأخرى. وقد طورت مجموعة كبيرة من الأساليب لتحليل هذه البيانات. 


(Y)‏ الرسوم البيانية الإحصائية 


توجد فئة معينة من الأدوات الإحصائية مهمة للغاية لدرجة أنها تستحق اهتمامًا خاصًا. وهذه الفئة 
هي استخدام الرسوم البيانية. صّقلت العين البشرية على مدار دهور من التطور لكي تكون قادرة 
على إدراك البتى والأنماط في الإشارات التي تصِل إليها. ويستفيد ale‏ الإحصاء استفادة AES‏ من 
ذلك عن طريق تمثيل البيانات في صورة مجموعة كبيرة من الأنواع المختلفة من الأشكال 
الرسومية؛ E ga adi‏ على لكر حيدم فإن العلاقات بين المتغيرات أو التكوينات في 
البيانات تصبح واضحة. ويُستخدم هذا في تحليل البيانات للمساعدة في فهم ما يدور X)‏ توزيع 
رواتب البيسبول في الشكل »)١-١‏ وإيصال النتائج إلى الآخرين. aah‏ بعض الأمثلة في الأشكال 
الثلاثة التالية: 


NS NN NY NY NE No M 


السحب النقدى 


(بالجنيه الإسترليني) 


شكل 7-5: «مصفوفة الشكل الانتشاري» التي تبيّن أوقات سباق 

العذو ٠٠١‏ متر و٠٠٠‏ متر (بالثواني)» والمسافات (بالأمتار) لدفع 

الجُلة وقذف القرص للمنافسين في عشاري الرجال في دورة الألعاب 

الأولمبية عام cheg JAAA‏ كل مربع العلاقة بين اثنين من 

المتغيرات الأربعة. والترابط القوي بين نتائج حدثي الرمي واضحٌ 
على نحو مباشر. l‏ 


(0۰۰ 


Nes \ 0۰‏ 0۰ 
عدد الأيام 


شكل Y-I‏ مخطط السلسلة Ada jl‏ الذي يبين المبلغ المسحوب من 

جهاز صراف آلي كل يوم. يبين الشكل بوضوح وجود دورات 

أسبوعية وشهرية» وأيضًا وجود نزعة متزايدة تدريجيًا مع مرور 

الوقت. ويتضح أيضًا وجود قيمة منخفضة على نحو مفاجئ بالقرب 
من نهاية الفترة. 


èn Yat 


3 
-Y 0 
nJ: 


شكل eT‏ توزيع قيم تشتيت الضوء من خلايا عوالق ABLE‏ من 

el yl‏ مختلفة. في الواقعء يُعرض ثلاثة أنواع clin‏ ولكن يمتلك اثنان 

منها توزيعين للقيم متشابهين جذا؛ لذلك يتجمع هذان التوزيعان 
لتكوين قمة عالية واحدة. 


خاتمة 


pad‏ هذا الفصل مراجعة سريعة لعدد قليل من الأدوات الإحصائية المهمة» ولكن يوجد العديد من 
الأدوات الأخرى الرائعة التي لم أذكرها. وتتناسب النماذج المختلفة مع أنواع المسائل المختلفة 
وأنواع البيانات المختلفة» ويوجد عدد لا نهائي من المسائل وبنى البيانات. ومن المهم أيضًا أن 
ندرك أن النماذج ليست كيانات معزولة؛ فالحقيقة هي أن النماذج المختلفة ترتبط بطرق متعددة؛ 
فربما تكون النماذج تعميمًا لأنواع أخرى من النماذج أو تكون حالات خاصة منها أو تتكيف مع 
أنواع مختلفة من البيانات» Xo‏ أنها Apes‏ جميعًا في شبكة غنية من العلاقات. 


الفصل السابع 
الحخوسية الاخصائية 


السحر الحقيقي يأتي من فريق التحليل الإحصائي لدينا. 
سام الخَّلف 


)١(‏ الإحصاء يغير تركيزه 


رأينا في المناقشات السابقة كيف أن الإفراط في المطابقة يمكن أن يمثل مشكلة» لكننا لم نتطرق 
أيضًا إلى الحل؛ إذ إننا ببساطة أشرنا إلى أنه كان من الضروري اختيار نماذج ليست معقدة للغاية 
ولا بسيطة للغاية. وبدون امتلاك خبرة كبيرة في مجال النمذجة الإحصائية» ليست هذه نصيحة 
مفيدة chia‏ وتوجد حاجة إلى مزيد من الطرق الموضوعية. وتستند إحدى هذه الطرق إلى مبدأ 
«التحقق المتبادل». 


كما رأينا أنه iia‏ عامة — بينما يزداد تعقيد النموذج» تواصل جودة مطابقته مع البيانات 
المتاحة التحسن» إلا أن جودة مطابقته مع عينات أخرى مستمَدّة من التوزيع نفسه (أو «أدائه خارج 
العينة») تتحسن Bale‏ في البدايةء ولكنْ بعد ذلك تيدأ في التدهور. هنا تكون «العينات الأخرى» 
مكل (A y ciae cial‏ ما تحن ds. 4, Osca‏ والنقطة التي يكون فيها النموذج ج مطابقًا على 

نحو أفضل مع بيانات «us ad Tue‏ نيدي أن امن là‏ أن Và gai nd‏ ذا Sin (4 oa‏ من 
التعقيد. وهذا در عماج الحل؛ فيجب علينا تقدير معلمات النموذج باستخدام عينة واحدة» وتقييم 
أدائه باستخدام عينة أخرى 


للأسف» Sale‏ ما نمتلك عينة واحدة فقط. وإحدى طرق مواجهة ذلك تتمثل في تقسيم هذه العينة 
(Gil pic)‏ إلى عينتين فرعيتين. وتستخدم عينة فرعية 5 gout) Baal‏ «عينة التدريب» أو «عينة 
التصميم») لتفدير المعلمةء وتستخدم ES TESI‏ «عينة التحقق») لتقييم الأداء واختيار 
النموذج. وهذا هو أسلوب التحقق المتبادل. وفي العادة» لتخفيف أي مشاكل ناجمة عن كون العينة 
الفرعية المستخدمة لتقدير المعلمات ليست هي مجمل العينة الأصلية» يُكرر هذا الإجراء عدة 
مرات؛ يعني E‏ أن العينة الأصلية تفس Éi säe‏ إلى عينتين؛ is‏ المعلمات باستخدام عينة 

dl mls‏ ل و ا سن 


3a‏ التحقق المتبادل مثالا على نهج «مكثف حاسوبيًا»؛ وسْمّي هكذا للسبب الواضح المتمثل في 
ضرورة بناء نماذج متعددة. وتوجد فئة أخرى مهمة من هذه الأساليب هي «تقنية إعادة المعاينة»» 
ولهذه الطريقة مجموعة متنوعة من الاستخدامات» anh EST,‏ استخداماتها المهمة يتمثل فى تقدير 
عدم اليقين المرتبط بالنماذج المعقدة؛ أي تحديد مدى الاختلاف الذي يمكننا أن نتوقع أن يصبح 
عليه النموذج إذا كنا قد أخذنا عينة بيانات مختلفة. وتعمل طرق إعادة المعاينة من خلال أخذ 
عينات فرعية عشوائية بحجم العينة الأصلية نفسها من العينة الأصلية (وهو ما يعني أن بعض نقاط 
البيانات ستستخدم أكثر من مرة). ويبنى نموذج (MR‏ بالشكل نفسه للنموذج الذي يجري تقييمه» 
لكل عينة من هذه العينات الفرعية. يبدو الأمر كما لو كان لدينا عينات متعددة» وكلها بالحجم نفسه»ء 

من التوزيع الأصليء وتنتج كل منها نموذجًا مُقَدّرًا. ويمكن بعد ذلك استخدام مجموعة النماذج تلك 
لمعرفة كيف كان يمكن أن يختلف هذا النموذج إذا كنا قد أخذنا عينة مختلفة. 


أحد أقوى الأمثلة التوضيحية للكيفية التي غيّرت بها قوة الكمبيوتر ale‏ الإحصاء الحديث» يَظهر 
في تأثير الأساليب الكثيفة Us pula‏ على طرق الاستدلال البايزية المذكورة في الفصل الخامس. 
فمن JS)‏ استخدام الطرق البايزية عمليّاء من الضروري حساب دوال التوزيع المعقدة (بمصطلحات 
Apel)‏ توجد حاجة إلى تكامل عالي الأبعاد). وقد ساعدت أجهزة الكمبيوتر على تجنب هذه 
المشكلة؛ You‏ من تقييم التوزيعات ریاضبًاء يأخذ جهاز الكمبيوتر أعدادًا كبيرة من العينات 
العشوائية منها. ويمكن تقدير خصائص التوزيعات من هذه العينات العشواتية» بالطريقة نفسها 
لاستخدامنا لمتوسط العينة لتقدير متوسط المجموعة الخاضعة للدراسة بأكملها. وأحدثت طريقة 
«مونت كارلو المستندة إلى سلسلة ماركوف» ثورة في ممارسة الإحصاء البايزية؛ إذ Kisa‏ 
جوهريًا من مجموعة من الأفكار الجذابة من الناحية النظريةء ولكنها قاصرة على النحو العملي 
إلى تقنية قوية لتحليل البيانات. l‏ 


لفت الفصل السابق SLY)‏ إلى قوة الأساليب الرسومية البيانية» من أجل التوضيح وتوصيل BSA‏ 
ولكن تقل الكمبيوتر الأساليبَ الرسومية البيانية إلى مستوّى جديد تمامًا؛ فبينما لم يكن لدينا في 
الماضي سوى صور ثابتة بالأبيض والأسود» أصبح لدينا الآن صورًا ملوّنة متحركة»ء بل وأهم من 
ذلك أننا يمكننا GY!‏ التفاعل مباشرة مع الصورة. وكمثال بسيط فحسب» من الممكن عرض أشكال 
متعددة à‏ في لوقت ld‏ بين كل zal y‏ متها CALAN‏ بين Milia pha f‏ من cd sid‏ ار 
بالكائنات» مثل مصفوفة الشكل الانتشاري في الشكل Y=)‏ ولكن في هذه الحالة ترتبط الأشكال من 
خلال الكمبيوتر. في هذه الحالة» إن إبراز أو تغيير أي مجموعة من النقاط يَظهر i‏ فى الوقت نفسه 
في جميع الأشكال. وتسمح أدوات أخرى للمرء «بالطيران» على نحو تفاعلي خلال فضاء بيانات 
عالي الأبعاد» عارضًا البيانات بطرق متعددة. 


وبما أن الإحصاء يستخدم على مستوّى «gale‏ ولان الكمبيوتر يلعب مثل هذا الدور المحوري» 
فإنه ليس من المستغرّب أن تطوّر حزم برامج إحصائية سهلة الاستعمال. is‏ تسكن لها ek‏ 
لدرجة أنها أصبحت معايير فى مجالات تطبيق معينة. ولكن هذا لا ينبغي أن يُنسينا أن التطبيق 
SER‏ للادوات hl e‏ ففي الواقع» في الأيام الأولى لتطوير البرمجيات 
الإحصائية» خد خَشِيَ البعض من أن NON T‏ الأدوات من شأنه أن يزيل الحاجة للإحصائيين؛ 


حيث إنه «يمكن GY‏ شخص أن يقوم بالتحليل الإحصائي؛ فكل ما عليه القيام به هو إعطاء 
التعليمات المناسبة للكمبيوتر.» مع ذلك» ثبت أن العكس Uu‏ هو الصحيح؛ وهناك مزيد من 
الطلب على الإحصائيين بمرور الوقت. وتوجد عدة أسباب لذلك. 


así‏ الأسباب هو أن البيانات Gib JES‏ على نحو متزايد؛ ففي الحياة اليومية» في كل مرة تقوم 
فيها بإجراء عملية شراء ببطاقة الائتمان أوانتسوق في TETTE CPC‏ العملية تلقائيًا؛ وفي 
العلوم الطبيعية» تسجّل الأدوات الرقمية الخواص الفيزيائية والكيميائية دون الحاجة إلى GAS‏ 
بشري؛ وفي المستشفيات» تراقب الأجهزة الإلكترونية المرضى elits‏ وما إلى ذلك. إننا نواجه 
سيلا من البيانات. وهذا يمتل فرصة هائلةء ولكنْ يلزم وجود مهارات إحصائية للاستفادة منها. 


السبب الثاني هو ظهور نطاقات جديدة تتطلب مهارات إحصائية؛ فالمعلوماتية الحيوية وعلم 
الجينوم يفككان التعقيد المذهل للجسم البشري من خلال البيانات التجريبية والرصدية» ويقومان 
على الاستدلال الإحصائي. وقد وُصف قطاع صناديق التحوط بأنه «قطاع مبني على الإحصاء»» 
وهو يستخدم الأدوات الإحصائية لوضع نماذج لسلوك الأسهم ومؤشرات الأسعار الأخرى 


السبب الثالث هو أن إعطاء الأوامر لجهاز كمبيوتر شيء» ومعرفة الأوامر التي ينبعي إعطاوّها 
وفهم النتائج شيء آخر Held‏ فين المؤكد أن الأمر ليس مجرد مسألة اختيار الأداة المناسبة 
للوظيفة وترك الكمبيوتر يقوم ijs‏ 4 العمل» بل الأمر يتطلب خبرة إحصاتية وفهمًا. وبالنسبة Bl ell‏ 
من المهم أن يعرف المرء حدوده» ومتى يجب عليه طلب النصيحة من خبير إحصائي. وللأسف› 
تعرض وسائل الأعلام كل أسبوع أناسًا يتطرّقون لأمور أكبر من فهمهم الإحصائي. 


ولهذه الأسباب وأكثرء يشهد ale‏ الإحصاء عصرًا ذهبيًا. 


oY! lle,‏ إلى نهاية هذا ix) Ly) ail jS sal GUS‏ من التوسع غير العادي الذي يتسم به 
الإحصاء؛ M‏ إنه (Gib)‏ في معظم ote‏ الحياة. ورأينا Lad‏ من طرقه؛ الأدوات والمقاييس 
المتطورة التي يستخدمها. كما رأينا أيضًا أنه مجال ديناميكي» لا SI‏ ينمو ويتطور. ومع ذلك» 
قبل كل شيء» أرجو أن أكون قد أوضحت أن ale‏ الإحصاء الحديث» المستند إلى الأسس الفلسفية 
العميقة» هو فن الاكتشاف؛ فعلم الإحصاء الحديث يمكننا من استخلاص أسرار الكون من حولنا؛ 
أي إنه يمكننا من الفهم. 


إجابات لعبارات سوء الفهم الواردة في الفصل الأول: 


(Y)‏ من الواضح أنه كلما كان اكتشاف المرض في وقت مبكرء calla‏ المدة التي سيعيشها 
المريض» Gas‏ النظر عن أي تدخل طبي؛ فبطريقة أو بأخرى يحتاج هذا إلى أن SR‏ بعين 
الاعتبار. 


(Y)‏ يعني التخفيض بنسبة >٠١‏ أن السعر ai‏ بمقدار الربع» ولكن هذا يعني أنه للعودة إلى 
السعر الأصلي عليك زيادة السعر بمقدار الثلث (ATY)‏ وليس الربع (75/)؛ على سبيل المثالء 
الخصم البالغ ٠١‏ على السعر الأصلي ٠٠١‏ جنيه استرليني يؤدي إلى السعر المُعلن VO‏ جنيهًا 
استرلينيًا. وللعودة إلى السعر الأصلي علينا زيادة هذا السعر بمبلغ Gria Yo‏ استرلينيًا؛ أي 
ZYY‏ من as VO‏ استرلینبًا. 

© .هذا يفترطن أن مقو سط الس ad gill‏ سرف قمر في الزياذة بالمعدذل شه الزيادقه فى 
الماضي. 

)£( إذا كان طفل واحد قد Si‏ في عام ١٠۹٠ء‏ فإن العبارة تعني أن اثنين لفيا مصرعهما في 
عام »١15١‏ وأربعة في عام ١١۹٠ء‏ وثمانية في عام ١١۹٠ء‏ وستة عشر في عام ٤٥۹٠ء‏ وما 
إلى ذلك. واستمرار المضاعفة بهذه الطريقة يعني أنه بحلول الوقت الراهن يقتل من الأطفال 
Ga y‏ بالرصاص سنويًا عدد أكثر من عدد سكان العالم. (وهذا المثال مأخوذ من الكتاب الممتاز 
الذي ألفه جويل بيست» والوارد في aud‏ القراءات الإضافية.) 
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